Руководство по распознаванию и исправлению вашей модели машинного обучения
Один из наиболее тревожных индикаторов плохо работающей модели машинного обучения - это проверка точности данных обучения и тестирования. Проверка ваших данных покажет, является ли ваша модель переоборудованной, неполноценной или сбалансированной. Причина, по которой у нас есть разделение на поезд и тест, заключается в том, чтобы мы могли определять и настраивать производительность наших моделей. В противном случае мы будем слепо обучать наши модели прогнозированию, не имея представления о производительности модели.
Недостаточное оснащение
«Ваша модель не соответствует обучающим данным, когда модель плохо работает с обучающими данными».
Причины
- Попытка создать линейную модель с нелинейными данными.
- Слишком мало данных для построения точной модели
- Модель слишком проста, имеет слишком мало функций
У недостаточно подготовленных учеников, как правило, низкая дисперсия, но высокая систематическая ошибка. Модель просто не фиксирует взаимосвязь обучающих данных, что приводит к неточным предсказаниям обучающих данных.
Средства правовой защиты
- Добавьте дополнительные функции во время выбора функции.
- Разрабатывайте дополнительные функции в рамках вашей проблемы, которые имеют смысл.
Наличие большего количества функций ограничивает предвзятость в вашей модели.
Переоснащение
«Ваша модель переоснащается данными обучения, когда вы видите, что модель хорошо работает с данными обучения, но не работает с данными оценки».
Причины
Основная причина переобучения моделей заключается в том, что алгоритм улавливает «шум» данных. Переобучение происходит, когда модель слишком хорошо соответствует данным. Модель переобучения показывает низкую систематическую ошибку и высокую дисперсию. Модель чрезмерно сложна, вероятно, из-за избыточных функций.
Средства правовой защиты
Когда модель переоборудована, связь между функциями модели и целевой переменной не фиксируется.
Одно из решений этой проблемы - k-кратная перекрестная проверка. Это мощная профилактическая мера против переобучения. Идея перекрестной проверки заключается в том, что вы выполняете несколько разделений мини-поездов для настройки вашей модели.
При стандартной k-кратной перекрестной проверке мы разделяем данные на k подмножеств, называемых свертками. Затем мы итеративно обучаем алгоритм на k-1 свертках, используя оставшуюся свертку в качестве тестового набора (называемого «удерживающей сверткой»).
Второе средство - вы можете тренироваться с большим объемом данных. Это не сработает в каждом случае, но в сценариях, когда вы просматриваете искаженную выборку данных, выборка дополнительных данных может помочь нормализовать ваши данные. Примером этого является то, что если вы моделируете рост и возраст детей, выборка из большего количества школьных округов поможет вашей модели.
Третье средство - вы можете удалить функции. Но важно понимать важность функции. Вы должны помнить о проблеме, которую пытаетесь решить, и иметь некоторые знания в предметной области. В конечном итоге избыточные функции не помогут, и их не следует включать в вашу модель машинного обучения.
Дополнительные средства правовой защиты
Регуляризация - это метод, который включает в себя множество приемов, позволяющих искусственно упростить вашу модель. Используемая техника зависит от типа учащегося, которого вы используете. Например, для линейной регрессии вы можете добавить параметр штрафа к функции стоимости. Но часто метод регуляризации также является гиперпараметром, что означает, что его можно настроить с помощью перекрестной проверки. Чтобы узнать больше о регуляризации конкретных алгоритмов, перейдите по ссылке.
Ансамбли - это метод машинного обучения, позволяющий комбинировать прогнозы из нескольких отдельных моделей. Ансамбли используют бэггинг, чтобы уменьшить вероятность переобучения сложных моделей, и бустинг, чтобы улучшить «прогностическую гибкость простых моделей».
Компромисс отклонения смещения
В конечном итоге специалисты по данным должны принимать решения относительно того, как они хотят, чтобы их модель предсказывала. Они должны понимать свою модель и то, почему она предсказывает тот или иной путь. Идеи переобучения и неполноценного подгонки подпадают под действие компромисса смещения отклонения. В конечном итоге ошибка может происходить как из-за предвзятости, так и из-за дисперсии, поэтому специалист по анализу данных должен уметь найти баланс. Но я оставлю компромисс отклонения смещения для будущего поста.
Спасибо за прочтение!
Источники:
Https://docs.aws.amazon.com/machine-learning/latest/dg/model-fit-underfitting-vs-overfitting.html