Что такое компромисс смещения и дисперсии?

Почему интервьюеры спрашивают об этом?

Вопросы о компромиссе смещения и дисперсии очень часто используются в интервью на должности специалистов по анализу данных. Они часто служат для обозначения опытного и знающего свое дело специалиста по данным по сравнению с младшим… и, более конкретно, тем, кто не знаком со своими вариантами смягчения ошибок прогнозирования в модели.

Так что это снова?

Итак, компромисс между смещением и дисперсией… когда-нибудь слышал об этом? Если нет, то вам нужно настроиться.

Компромисс смещения и дисперсии - это простая идея, но она должна использоваться во многих случаях статистического анализа и моделирования, которые вы выполняете, в первую очередь, когда дело доходит до исключения ошибок из прогнозов.

Где в игру вступает ошибка

Когда вы создаете модель, ваша модель будет иметь ошибку. Имеет смысл! Здесь ничего нового; Новым является идея о том, что указанная ошибка на самом деле состоит из двух вещей ... Как вы уже догадались, смещение и дисперсия! Извините, что я так усердно разбираюсь в этом, но важная причина заключается в том, что, как только вы поймете, составные части вашей ошибки, тогда вы можете определить план по ее минимизации.

Существуют различные методы и подходы, которые вы можете использовать для управления и минимизации предвзятости или отклонения, но при этом необходимо учитывать свои соображения. Следовательно, почему для вас, как для специалиста по данным, так важно понимать влияние того и другого.

Давайте разберемся с предвзятостью

Смещение представляет собой разницу между нашим прогнозом и фактом.

Высокое смещение против низкого смещения

Модель с большим смещением - это та, которая мало что собирает из данных для последующего создания прогнозов. Часто вы слышите фразу о том, что модель с высоким уровнем предвзятости является «чрезмерно обобщенной». Это очень мало зависит от обучающих данных для определения его прогнозов, поэтому, когда дело доходит до создания точных прогнозов на ваших тестовых данных ... он работает очень плохо.

В нашем подходе могут быть неявные предположения, которые приводят к тому, что не уделяется внимания тем функциям, которые позволили бы модели генерировать прогнозы с большей производительностью.

И наоборот, низкое смещение представляет собой модель с высокой точностью. Таким образом, мы явно хотели бы минимизировать это.

Что означает дисперсия для вашей модели?

Дисперсия - это в значительной степени то, на что это похоже; Дисперсия связана с распределением наших прогнозов и тем, насколько они «изменчивы». Если вы когда-нибудь слышали термин «переоснащение»; это фактически объяснение результатов модели с высокой дисперсией.

Происходит то, что модель с высокой степенью смещения сильно отличается от модели с высокой дисперсией, которая, можно сказать, «чрезмерно зависит» от ваших данных обучения. Фактически, эта модель может очень хорошо работать с данными обучения. Она может настолько хорошо подходить к обучающим данным, что на первый взгляд кажется отличной моделью, но в тот момент, когда вы пытаетесь обобщить вашу модель на ваши тестовые данные ... это делает это очень плохо. Модель слишком близко соответствует вашим тренировочным данным.

Понимание дублирования между систематической ошибкой и дисперсией

Изображение ниже - отличное представление о наложении моделей с высокой или низкой дисперсией или смещением. Эта концепция была визуализирована миллион раз и остается основным продуктом для интерпретации результатов, связанных с компромиссом смещения и дисперсии.

Высокое смещение

Давайте поговорим о ситуациях, в которых систематическая ошибка высока: независимо от вариации прогноза, в модели неявно отсутствуют любые сигналы, которые могут потребоваться для интерпретации или использования; и в результате оказывается далеко не в яблочко.

Низкое смещение

В ситуациях, когда предвзятость невелика, мы можем видеть, что прогнозы, по крайней мере, основаны на фактах. - будь то переменная или нет, мы в прямом смысле лучше.

Высокая вариативность

При большом разбросе мы видим, что результаты повсюду, явно не соответствуя данным, которые он видел раньше. Хотя эти результаты кажутся правильными с точки зрения направления, им не хватает возможности обобщения для новых данных… что обычно должно быть целью построения любой модели.

Низкая вариация

В случаях низкой вариативности мы можем видеть, что сами прогнозы различаются значительно меньше.

Очевидно, что каждая форма ошибки возникает по определенному спектру, но эта визуализация служит для закрепления проблем, связанных с этим компромиссом.

Почему так сложно иметь и то, и другое?

Когда дело доходит до дизайна вашей модели, вы будете вынуждены принять определенные решения; и в этих решениях подразумевается склонность в том или ином направлении.

Допустим, вы работаете с алгоритмом случайного леса и, пытаясь повысить производительность, вы начинаете настраивать гиперпараметры ... один из которых заключается в добавлении все большего количества деревьев и выборочных переменных ... в то время как это даст вам определенный прирост производительности вплоть до Дело в том, что со временем ваша модель будет слишком хорошо знакома с данными, которые она видит; и любой последующий вызов для генерации прогнозов, вероятно, будет рассматривать эти новые данные слишком аналогично тем, которые он видел.

Вы также можете подумать об этом с точки зрения количества включенных переменных, особенно категориальных. Чем больше входных данных, тем больше модель может понять о ваших обучающих данных, но потенциально тем меньше она будет способна обобщать данные, которые она никогда не видела. Опять же, мы видим соображения, которые, возможно, необходимо сделать в пользу смягчения систематической ошибки или дисперсии.

Заключение

Итак, мы подбросили множество определений, поговорили о том, как они играют вместе ... но какой смысл об этом говорить? Я бы свел все к рассмотрению. Без осознания влияния дизайна модели на результаты и способности определять нашу ошибку у нас нет возможности для улучшения.

Теперь вы лучше понимаете, как дизайн вашей модели может в конечном итоге повлиять на их полезность. Используйте это понимание, будьте методичны в своем рассмотрении и создайте несколько потрясающих моделей!

Надеюсь, вам понравилось, потому что больше сообщений о машинном обучении, науке о данных и т. П. Посетите меня на datasciencelessons.com или подпишитесь на меня в среде!

Удачи в науке о данных!