Будучи молодым специалистом по данным, я всегда думал, что лучшая модель, которую вы можете создать, — это модель, которая будет давать наилучшие показатели после предсказания результатов некоторых тестов.

Однако стремление к наименьшей MSE или самой высокой точности классификации не будет реальной задачей. Но почему ?

Интуиция — важность тренировки

Давайте представим ситуацию, когда два ресторанных критика приходят в одно и то же колумбийское заведение, чтобы отведать одно и то же блюдо.

Первый критик очень уважаем, он очень хорошо знает еду на всех континентах, в каждой стране и даже во всех регионах этих стран. Он тренировался и многому научился, питаясь в лучших местах мира и помня обо всех вкусах.

Второй критик молод, неопытен и только начал свою карьеру. Он был в нескольких ресторанах, ел несколько блюд, но очень уверен в своем выборе и суждениях.

Съев блюдо, каждый критик поставил оценку:

  • первый поставил 8 из 10
  • второй поставил 3 из 10

Оказывается, блюдо уже было оценено многими известными и выдающимися критиками, и средний балл составляет 9,1 из 10.

Что не так?

Это точно такая же проблема, как две модели машинного обучения, которые не будут обучаться одинаково.

Действительно, первый критик знает, как оценить блюдо со многими характеристиками, такими как вкус, кулинария... Он может использовать своего рода регрессию, чтобы «вычислить» примечание, которое он даст, потому что у него есть длинный список. карьера и много съеденных блюд:

Второй всего этого не знает, но у него есть характеристика, по которой он определяет сорт, страну/регион откуда блюдо:

Почему он поставил 5 из 10? Потому что он дважды ел колумбийскую еду в очень плохих ресторанах в своем родном городе.

Эта история объясняет разницу между обобщенной моделью и плохой моделью.

Обобщение относится к моделям, способным точно прогнозировать результаты на основе неизвестных и новых данных. Это то, что каждая компания должна искать, потому что эти модели полезны. Конечно, модель должна быть хорошей во время сеанса обучения, но ее сложность должна быть достаточно низкой, чтобы оставаться общей.

У первого критика есть оптимизированная модель и обобщенная модель, он может использовать полученные знания для правильной оценки новых блюд, даже если его «предсказание» не соответствует среднее значение всех предыдущих оценок.

Второй критик тоже думает об использовании оптимизированной модели из-за своего опыта, но на самом деле это переоснащенная модель, которая была почти идеальной во время тренировки и стала ужасной, когда она приходит, чтобы предсказать новые данные.

Пример представления разных моделей (от недообучения до переоснащения), синяя линия — это прогнозы модели, мы ясно видим, что модель посередине — лучшая:

Последний представляет собой переоснащенную модель, которая точно знает отношения между входными и выходными данными. Однако он слишком хорошо учился и теряется при столкновении с новыми данными (что видно из больших кривых, которые у него есть). Считается, что модели такого типа имеют высокую дисперсию прогнозов и чувствительны к шуму в данных.
Модель, основанная на небольшом наборе данных, столкнется с этой проблемой.

Напротив, первый график представляет проблему недообучения, которая относится кмодели с высоким смещением, что означает, что она игнорирует набор данных и отношения между входными и выходными данными. .

Как я сказал в начале, точная модель — это не единственное, что нужно иметь в виду и тренировать. Это объясняется тем, что мы только что видели: переобученные модели — это модели с высокой точностью и низкими ошибками прогнозирования. Это противоречит истинной цели машинного обучения, заключающейся в обобщении и получении модели, которую можно использовать в производстве.

Фундаментальная проблема машинного обучения — противоречие между оптимизацией и обобщением (Франсуа Шолле, Deep Learning with Python).

Эта проблема хорошо известна, когда речь идет об алгоритмах глубокого обучения, которые строят модели, создавая свои собственные правила, правила, которые могут быть слишком специфичными и не обобщенными…

Однако с большими данными и некоторыми полезными методами (например, регуляризация) это можно преодолеть!

Спасибо за прочтение, надеюсь, вам понравилось и вы узнали много нового!