Что такое подбор модели?

Подгонка модели — это мера того, насколько хорошо модель машинного обучения обобщает данные, аналогичные тем, на которых она обучалась. Обобщение модели на новые данные — это, в конечном счете, то, что позволяет нам ежедневно использовать алгоритмы машинного обучения для прогнозирования и классификации данных. Причиной низкой производительности моделей машинного обучения является либо переоснащение, либо недообучение данных. Хорошо сбалансированная модель дает более точные результаты. Переоснащенная модель слишком точно соответствует данным. Модель, которая недооснащена, недостаточно точно соответствует.

Почему важна подгонка модели?

Понимание соответствия модели важно для понимания основной причины плохой точности модели. Фактически, переоснащение и недообучение — две основные причины низкой производительности алгоритмов машинного обучения. Следовательно, подгонка модели является сущностью машинного обучения. Если наша модель не соответствует нашим данным правильно, результаты, которые она дает, не будут достаточно точными, чтобы быть полезными для практического принятия решений. Подбор модели — это автоматический процесс, который гарантирует, что наши модели машинного обучения имеют индивидуальные параметры, наиболее подходящие для точного решения нашей конкретной реальной бизнес-задачи.

Кратко о недооснащении —

Говорят, что алгоритм машинного обучения не соответствует требованиям, когда он не может точно уловить взаимосвязь между входными и выходными переменными. Он генерирует высокий уровень ошибок как для обучающего набора, так и для невидимых данных. Следовательно, недообучение разрушает точность нашей модели машинного обучения. Это происходит, когда данных, доступных для построения модели, меньше или, возможно, когда модели требуется больше времени на обучение и меньше регуляризации. Высокая систематическая ошибка и низкая дисперсия — хорошие индикаторы недообучения. Перейдите по этой ссылке, чтобы узнать больше о смещении и дисперсии для выбора модели.

Как избежать недообучения —

  1. Увеличьте продолжительность обучения.
  2. Увеличение количества функций путем выполнения конструирования функций.
  3. Удалите шум из данных.
  4. Увеличьте сложность модели.

Кратко о переоснащении —

Говорят, что алгоритм машинного обучения имеет переоснащение, когда мы видим, что модель хорошо работает с обучающими данными, но плохо работает с данными оценки. Когда это происходит, алгоритм, к сожалению, не может точно работать с невидимыми данными, что противоречит его цели. Когда модель обучается с таким большим количеством данных, она начинает учиться на шуме и неточных данных в нашем наборе данных. Тогда модель неправильно классифицирует данные из-за слишком большого количества деталей и шума. Низкое смещение и высокая дисперсия — хорошие индикаторы переобучения. Вот подробная серия о том, как уменьшить Overfitting.

Как избежать переобучения —

  1. Увеличение тренировочных данных.
  2. Ранняя остановка на этапе обучения.
  3. Регуляризация хребта и регуляризация лассо.
  4. Сокращение функций и отсев.

Кратко о подходящей модели —

В идеале, когда модель машинного обучения делает прогнозы с нулевой ошибкой, говорят, что они хорошо соответствуют данным. Эта ситуация достижима в точке между переоснащением и недообучением. Чтобы понять это, нам нужно будет посмотреть на производительность нашей модели во времени, пока она учится на обучающем наборе данных.

Сводка —

В этой статье я попытался объяснить подгонку модели простыми словами. Если у вас есть какие-либо вопросы, связанные с постом, задайте их в разделе комментариев, и я сделаю все возможное, чтобы ответить на них. Кроме того, проверьте интересные ссылки, связанные с этой темой ниже.

  1. Переобучение против недообучения: полный пример — https://towardsdatascience.com/overfitting-vs-underfitting-a-complete-example-d05dd7e19765
  2. Переоснащение и недообучение в машинном обучении — https://www.youtube.com/watch?v=W-0-u6XVbE4
  3. Углубленная предвзятость и дисперсия — https://www.youtube.com/watch?v=BqzgUnrNhFM&t=30s
  4. Регрессия гребня и лассо — https://www.youtube.com/watch?v=9lRv01HDU0s
  5. Сложность модели — https://www.youtube.com/watch?v=HUb6VpGHv1w

Первоначально опубликовано на https://www.ml-concepts.com/everything-you-need-to-know-about-model-fitting-in-machine-learning/ 4 марта 2022 г.