Интуитивное объяснение предубеждений в машинном обучении на примере цен на жилье: не сложная математика.

С тех пор, как я познакомился с концепцией высокой предвзятости в машинном обучении, мне всегда было трудно сформулировать ее интуитивно. Конечно, я бы увидел и понял графики, объясняющие эту концепцию, но что всегда ускользало от моего разума, так это идеальная аналогия вне жаргона, чтобы уловить ее. Так было до тех пор, пока меня не осенил прекрасный пример этого.

Быстрый поиск в Google объяснит предвзятость в контексте машинного обучения как явление, при котором алгоритм систематически выдает результаты, которые являются предвзятыми/предвзятыми из-за ошибочных предположений в процессе обучения модели. В настоящее время существует множество способов, с помощью которых в процесс обучения модели могут быть внесены погрешности, например, систематическая ошибка выжившего, когда данные, используемые для обучения модели, содержат только данные, пережившие процесс отбора, и игнорируют те, которые не прошли. этот процесс.

Тем не менее, меня интересовало предубеждение, связанное со сложностью модели, когда модель имеет слишком мало функций и параметров, чтобы учиться на данных. Как правило, модели машинного обучения с меньшим количеством переменных или низкой сложностью модели имеют тенденцию к высокому смещению, а это означает, что они будут генерировать ошибочные прогнозы из-за предубеждений, извлеченных из основного предположения, которое они получили из данных, и впоследствии будут выполнять очень плохая работа по минимизации ошибок между прогнозируемыми и фактическими значениями.

Но почему?

Ну, я боролся с этой концепцией, пока не наткнулся на пример, относящийся к прогнозированию цен на жилье. Одной из наиболее очевидных характеристик, которые следует включить в модель, является размер дома в качестве независимой переменной. И логично предположить, что чем больше дом, тем выше цена дома, что является ПРЕДПОЛОЖЕНИЕМ модели, особенно в случае, если данные подтверждают это. Но всегда ли это так или мы просто стали жертвой предубеждения?

Что ж, если бы мы использовали эту модель вне тренировочной среды, она, вероятно, в любом случае сработала бы в какой-то степени.
Однако эта модель столкнулась бы с проблемами, поскольку она делает БОЛЬШОЕ предположение, что меньшие размеры связаны с более низкими ценами. все время. Что произойдет, если мы предскажем стоимость домов в престижных районах? Дом в Кэмп-Бэй, вероятно, будет стоить дороже, независимо от его размера, по сравнению с домом в сельской местности. Другой пример – состояние дома. Опять же, не всегда большой дом будет стоить дорого, независимо от его реального состояния. Эта модель, хотя и делает разумное предположение, всегда будет предвзято делать прогнозы о том, что цены на жилье пропорциональны размеру, независимо от того, каковы другие особенности, если они были исключены при обучении модели. Таким образом, модель с небольшим количеством переменных/функций, как правило, не сможет оценить сложность и взаимодействие различных функций в реальности, а также существующие в реальности вариации. Термин для этого называется недообучением.