Руководство по распознаванию и исправлению вашей модели машинного обучения

Один из наиболее тревожных индикаторов плохо работающей модели машинного обучения - это проверка точности данных обучения и тестирования. Проверка ваших данных покажет, является ли ваша модель переоборудованной, неполноценной или сбалансированной. Причина, по которой у нас есть разделение на поезд и тест, заключается в том, чтобы мы могли определять и настраивать производительность наших моделей. В противном случае мы будем слепо обучать наши модели прогнозированию, не имея представления о производительности модели.

Недостаточное оснащение

«Ваша модель не соответствует обучающим данным, когда модель плохо работает с обучающими данными».

Причины

  • Попытка создать линейную модель с нелинейными данными.
  • Слишком мало данных для построения точной модели
  • Модель слишком проста, имеет слишком мало функций

У недостаточно подготовленных учеников, как правило, низкая дисперсия, но высокая систематическая ошибка. Модель просто не фиксирует взаимосвязь обучающих данных, что приводит к неточным предсказаниям обучающих данных.

Средства правовой защиты

  • Добавьте дополнительные функции во время выбора функции.
  • Разрабатывайте дополнительные функции в рамках вашей проблемы, которые имеют смысл.

Наличие большего количества функций ограничивает предвзятость в вашей модели.

Переоснащение

«Ваша модель переоснащается данными обучения, когда вы видите, что модель хорошо работает с данными обучения, но не работает с данными оценки».

Причины

Основная причина переобучения моделей заключается в том, что алгоритм улавливает «шум» данных. Переобучение происходит, когда модель слишком хорошо соответствует данным. Модель переобучения показывает низкую систематическую ошибку и высокую дисперсию. Модель чрезмерно сложна, вероятно, из-за избыточных функций.

Средства правовой защиты

Когда модель переоборудована, связь между функциями модели и целевой переменной не фиксируется.

Одно из решений этой проблемы - k-кратная перекрестная проверка. Это мощная профилактическая мера против переобучения. Идея перекрестной проверки заключается в том, что вы выполняете несколько разделений мини-поездов для настройки вашей модели.

При стандартной k-кратной перекрестной проверке мы разделяем данные на k подмножеств, называемых свертками. Затем мы итеративно обучаем алгоритм на k-1 свертках, используя оставшуюся свертку в качестве тестового набора (называемого «удерживающей сверткой»).

Второе средство - вы можете тренироваться с большим объемом данных. Это не сработает в каждом случае, но в сценариях, когда вы просматриваете искаженную выборку данных, выборка дополнительных данных может помочь нормализовать ваши данные. Примером этого является то, что если вы моделируете рост и возраст детей, выборка из большего количества школьных округов поможет вашей модели.

Третье средство - вы можете удалить функции. Но важно понимать важность функции. Вы должны помнить о проблеме, которую пытаетесь решить, и иметь некоторые знания в предметной области. В конечном итоге избыточные функции не помогут, и их не следует включать в вашу модель машинного обучения.

Дополнительные средства правовой защиты

Регуляризация - это метод, который включает в себя множество приемов, позволяющих искусственно упростить вашу модель. Используемая техника зависит от типа учащегося, которого вы используете. Например, для линейной регрессии вы можете добавить параметр штрафа к функции стоимости. Но часто метод регуляризации также является гиперпараметром, что означает, что его можно настроить с помощью перекрестной проверки. Чтобы узнать больше о регуляризации конкретных алгоритмов, перейдите по ссылке.

Ансамбли - это метод машинного обучения, позволяющий комбинировать прогнозы из нескольких отдельных моделей. Ансамбли используют бэггинг, чтобы уменьшить вероятность переобучения сложных моделей, и бустинг, чтобы улучшить «прогностическую гибкость простых моделей».

Компромисс отклонения смещения

В конечном итоге специалисты по данным должны принимать решения относительно того, как они хотят, чтобы их модель предсказывала. Они должны понимать свою модель и то, почему она предсказывает тот или иной путь. Идеи переобучения и неполноценного подгонки подпадают под действие компромисса смещения отклонения. В конечном итоге ошибка может происходить как из-за предвзятости, так и из-за дисперсии, поэтому специалист по анализу данных должен уметь найти баланс. Но я оставлю компромисс отклонения смещения для будущего поста.

Спасибо за прочтение!

Источники:

Https://docs.aws.amazon.com/machine-learning/latest/dg/model-fit-underfitting-vs-overfitting.html