А. Переоснащение

Для оценки производительности модели мы можем использовать метод перекрестной проверки. Если модель хорошо работает на обучающих данных, но плохо соответствует метрикам перекрестной проверки, мы имеем дело с переобучением. Это очень распространенная проблема в науке о данных. Чтобы проиллюстрировать это далее, мы можем представить, что у нас есть модель, которая отвечает, получает ли кандидат работу на основе своего резюме. Модель имеет точность 99% на обучающих данных, но 50% на тестовой выборке. Другими словами, модель выучила данные «наизусть».

Б. Недостаточное оснащение

В случае недостаточной подгонки модель плохо работает как на обучающей выборке, так и на тестовой. Модель не может найти закономерность в данных. В отличие от переобучения, когда модель пыталась быть слишком сложной, модель недостаточной подгонки слишком проста.

C. Кривые обучения

Хороший способ проверить, соответствует ли модель переоснащению или недостаточно, - это сгенерировать кривые обучения. Это графики производительности модели на обучающем наборе и проверочном наборе в зависимости от размера обучающего набора. Нам нужно обучить модель несколько раз на разных участках обучающей выборки. Для этого нам понадобится следующий код:

Теперь давайте посмотрим на кривые обучения модели линейной регрессии.

Во-первых, давайте посмотрим на эффективность обучающих данных. Когда имеется всего несколько обучающих примеров, модель может идеально им соответствовать, но когда количество обучающих примеров увеличивается, модель становится невозможным идеально соответствовать данным. Данные нелинейны и слишком зашумлены, поэтому ошибка увеличивается, пока не достигнет плато. В случае набора проверки ситуация обратная. Во-первых, ошибка довольно большая, и по мере увеличения количества примеров она уменьшается, чтобы снова выйти на плато. Это типичный пример недообучения.

Теперь давайте посмотрим на 10-ю модель полиномиальной регрессии с теми же данными.

В этом случае есть некоторые отличия. Во-первых, ошибка обучающих данных намного ниже, чем в случае линейной регрессии. Во-вторых, между кривыми есть разрыв. Это означает, что модель работает лучше на обучающем наборе, чем на проверочном, что обычно означает, что модель переобучена.