Объясняя, что предсказывают изученные модели: в каких случаях мы можем доверять моделям машинного обучения и…

1 Введение

Машинное обучение — это изучение компьютерных алгоритмов, которые автоматически улучшаются благодаря опыту [1]. Каждый день разрабатывается большое количество алгоритмов различной сложности от здравоохранения [2][3] до робототехники [4] и системы уголовного правосудия [5]. Для общности этих моделей они используют несколько математических концепций, которые могут затруднить человеку непосредственное понимание внутренних процессов при выполнении прогнозов. Возникают вопросы о достоверности и надежности модели. Прежде чем слепо полагаться на модель, необходимо ответить на некоторые важные вопросы и принять во внимание меры предосторожности: адекватны ли данные, поступающие в модель, и правильно ли они используются для обучения и тестирования модели? Используются ли правильные показатели производительности?
В общем, существует два основных подхода к машинному обучению: контролируемое
обучение и неконтролируемое обучение. Обучение с учителем включает в себя обучение модели на размеченных обучающих данных для прогнозирования будущих результатов, а обучение без учителя в основном используется для выявления скрытых закономерностей или внутренних структур во входных данных [6].

2 В каких случаях мы можем доверять моделям машинного обучения, а когда требуется осторожность?

Даже самые сложные алгоритмы обучения могут работать плохо из-за
недостаточности обучающих данных. Отсутствие достаточного количества тренировочных данных является одним из первых факторов, влияющих на производительность. Видно, что объем данных может резко изменить точность модели [7]. Кроме того, существует ряд причин, ухудшающих качество данных. К сожалению, в реальных задачах данные, подаваемые в модель, могут быть нерепрезентативными для будущих примеров. Таким образом, даже если наша модель хорошо научилась на данных данных, она может плохо работать на новых примерах. Кроме того, выборка и разделение данных обучения и тестирования играют важную роль. Выбор предвзятых и асимметричных групп выборок может привести к несоответствию между результатами на видимых и невидимых примерах. Кроме того, отсутствие предварительной обработки данных также может привести к снижению производительности, особенно когда они включают функции, не относящиеся к тому, что мы хотим наблюдать. Например, хотя номер двери квартиры не является важной характеристикой для определения
ее цены, он может сильно повлиять на модель прогнозирования цены, если его не исключить из
обучающих данных.
Еще один важный момент. Одним из аспектов модели являются показатели производительности, используемые для
ее оценки. Выбор неправильных показателей может ввести исследователя в заблуждение. По этой причине следует тщательно выбирать соответствующие критерии эффективности. Существует множество показателей производительности, обычно используемых в классификации, некоторые из них — точность, прецизионность, полнота, f-мера и т. д. Для расчета этих значений может быть полезна матрица путаницы.

В зависимости от определения проблемы один из этих показателей может быть более
важным, чем другой. Чтобы просто проиллюстрировать это, давайте рассмотрим два разных примера бинарной классификации.

Рассмотрим задачу прогнозирования, когда исследуются пациенты с онкологическим заболеванием. На основании полученных данных врач хочет предсказать, есть ли у пациента рак или нет. Пусть 1 представляет наличие, а 0 представляет отсутствие рака. В этой ситуации врач определенно не хочет предсказывать 0, когда на самом деле 1, то есть у пациента рак. Поэтому мы можем пожертвовать точностью ради отзыва.

С другой стороны, представьте себе банк, разрабатывающий алгоритм для автоматической
блокировки счета (прогноз = 1) или нет (прогноз = 0) в случае подозрительного акта мошенничества. В таком сценарии мы хотим, чтобы наша модель была очень точной, прежде чем блокировать учетную запись. В противном случае вмешательство в каждое малейшее подозрение может привести к недовольству клиентов. Поэтому здесь нужно стремиться к максимальной точности.

Вкратце, производительность алгоритмов машинного обучения может вводить в заблуждение, если не учитывать правильные показатели. Последствия предсказания ошибок должны быть должным образом идентифицированы, и модели должны быть разработаны соответствующим образом. Более того, рекомендуется использовать несколько метрик производительности, которые не сильно коррелированы [9], поэтому с каждой метрикой мы можем иметь представление о другом аспекте производительности классификатора.

Помимо технических проблем, остается без ответа довольно философский вопрос: стоит ли доверять алгоритмам? Результаты исследований показывают, что убедить людей использовать алгоритмы в изначально неопределенных областях — это не тот случай, когда нужно ждать, пока технология улучшится и алгоритмы будут работать лучше, чем сегодня. Даже если эти алгоритмы обеспечивают лучшую производительность, чем люди-специалисты, люди все равно могут не захотеть использовать эти алгоритмы для принятия решений в некоторых областях. Основные примеры этих областей можно резюмировать как медицинские решения, беспилотные автомобили, судебные решения и инвестиции. Влияние этого отказа является существенным, так как общество может быть не в состоянии в полной мере воспользоваться технологическим прогрессом в важных, но неопределенных областях, пока люди не захотят использовать алгоритмы, чтобы делать неопределенные по своей сути прогнозы [10].

3 Заключение

В заключение следует отметить, что создание надежных моделей машинного обучения
может оказаться сложной задачей, поскольку прогнозы этих моделей напрямую влияют на важные решения в реальной жизни. Однако, если принять необходимые меры предосторожности в отношении упомянутых выше моментов, хорошо изученные модели машинного обучения могут революционизировать образ нашей жизни.

Ссылки

Митчелл, Том (1997). Машинное обучение. Нью-Йорк: Макгроу Хилл. ISBN
0–07–042807–7. ОСЛК 36417892
Эстева А., Купрель Б., Новоа Р. и соавт. Классификация рака кожи на уровне дерматологов с глубокими нейронными сетями. Природа 542, 115–118 (2017).
Гассеми, Марзиех, Тристан Науманн, Питер Шулам, Эндрю Л. Бим, Ирэн Ю. Чен и Раджеш Ранганат. 2018. «Обзор проблем и возможностей машинного обучения для здравоохранения».
Гу, Шисян, Итан Холли, Тимоти Лилликрап и Сергей Левин. 2016. «Глубокое обучение с подкреплением для роботизированных манипуляций с асинхронными обновлениями вне политики».
Марион Освальд, Джейми Грейс, Шина Урвин и Джеффри С. Барнс (2018) Алгоритмические модели оценки рисков: уроки модели Дарема HART и «экспериментальная» пропорциональность, Закон об информационных и коммуникационных технологиях, 27: 2, 223–250, DOI: 10.1080/13600834.2018.1458455
Что такое машинное обучение? Как это работает, методы и приложения. [Онлайн]: https://www.mathworks.com/discovery/machine-learning.html
Обзор современного состояния теории и архитектур глубокого обучения — научный сотрудник ResearchGate. Доступно по адресу: https://www.researchgate.net/figure/The-performance-of-deep-learning-with-respect-to-the-amount-of-data_fig3_331540139 [по состоянию на 16 марта 2022 г.]
Дж. Мохаджон, Матрица путаницы для вашей многоклассовой модели машинного обучения, сентябрь 2020 г. [Онлайн]. https://towardsdatascience.com/confusion-matrix-for-your-multi-class-machine-learning-model-ff9aa3bf7826
Н. Селия, Т. М. Хошгофтаар и Дж. Ван Халс, «Исследование взаимосвязи показателей производительности классификатора», 2009 г., 21-я международная конференция IEEE по инструментам с искусственным интеллектом. IEEE, 2009 г., стр. 59–66.
Беркли Джей Дитворст и Соам Бхарти (2019 г.) «Предпочтения, связанные с поиском риска, заставляют потребителей отвергать алгоритмы в неопределенных областях», в NA — Advances in Consumer Research Volume 47, eds. Раджеш Багчи, Лорен Блок и Леонард Ли, Дулут, Миннесота: Ассоциация потребительских исследований, страницы: 78–81.

Объясняя, что предсказывают изученные модели: в каких случаях мы можем доверять моделям машинного обучения и…

Вопросы по теме