При разработке модели машинного обучения ваша цель состоит в том, чтобы сделать ее такой, чтобы она хорошо обобщала и имела высокую производительность на невидимых данных. Настройка модели, а затем ее обучение — это действительно поиск подходящей функции из определенного набора функций. Выбор здесь имеет большое значение, и вот почему.

Если набор функций, который вы выбираете, плохой и если ни одна из моделей в наборе не имеет относительно небольшой усредненной ошибки, нельзя ожидать, что модель будет хорошо обобщать. Вероятно, у него нет возможностей для представления базовой структуры данных.

Однако, если набор функций велик, может быть трудно найти хорошую модель, и часто может происходить переоснащение. Это означает, что модель слишком усердно пыталась представить обучающие данные, придавая значительный вес атрибутам, которые в целом не важны, что приводило к низкой производительности на тестовом наборе.

Используемый метод, который помогает нам выбирать модели, которые хорошо обобщают из большого набора функций, — это регуляризация. Это снижает гибкость модели во время обучения. Регуляризация — это любое изменение задачи оптимизации, которое снижает ее адаптивность и делает ее менее восприимчивой к переобучению.

Но если мы полностью опустим перенастройку, обучение станет невозможным. Цель состоит в том, чтобы найти компромисс между средней ошибкой и сроком штрафа. По этим причинам существует коэффициент, гиперпараметр регуляризации — λ. Теперь проблема оптимизации становится следующей:

Важное замечание: мы хотим минимизировать все выражение.

Два типа регуляризации срока наказания:

  • l1 или лазо регуляризация: ограничение нормы весов
  • l2 регуляризация: ограничение абсолютного значения весов.

Основное различие между двумя типами регуляризации заключается в том, что l2 регуляризация приводит к тому, что некоторые веса становятся очень маленькими, в то время как l1 регуляризация делает эти менее важные веса фактически равными нулю.

Причина этого кроется в выражениях производных от штрафных членов при регуляризации l1 и l2.

В случае регуляризации l1:

он в равной степени способствует уменьшению абсолютного значения, независимо от того, каковы значения весов.

В случае регуляризации l2:

штраф масштабируется линейно со значениями весов. Следовательно, если значения весов малы l2, регуляризация будет иметь небольшой эффект.

По этой причине l1 регуляризация менее стабильна. В случае наличия коррелированных атрибутов на входе модели для l1 регуляризации не имеет значения, какой атрибут будет исключен. Небольшие различия в моделях могут иметь разные результаты, что затрудняет интерпретацию моделей.

Одним из решений являются эластичные сети со следующей регуляризацией:

Однако, поскольку регуляризация l1 может привести к модели разреженности (что означает, что некоторые веса равны нулю), это может быть полезно. . Если вес какого-либо атрибута/признака равен нулю, это означает, что этот признак не важен и его не нужно измерять. Некоторые измерения дороги в проведении, и знание того, что они не дают полезной информации, экономит бюджет и время.

Может случиться так, что эксперты заранее знают, как некоторые атрибуты способствуют желаемому результату. Знание предметной области проблемы, которую мы хотим смоделировать, может быть использовано для управления моделью с помощью регуляризующего выражения:

Возникает вопрос о качестве предполагаемых значений. Однако это можно решить при поиске гиперпараметра регуляризации. Если допущения плохие, окажется, что гиперпараметр со значением, близким к нулю, даст лучшие результаты, и такая конфигурация будет использоваться.

Заключение

Регуляризация не всегда полезна. Это когда наборы данных малы, и модель может легко соответствовать обучающим данным. Говорят, что большие наборы данных являются лучшей регуляризацией. Однако получение больших наборов данных может быть дорогостоящим как с точки зрения денег, так и времени. В такие моменты мы рассматривали, как можно изменить задачи оптимизации, чтобы добиться лучшего обобщения.