Зачем выбирать функции при разработке модели машинного обучения?

При использовании машинного обучения для прогнозирования целевой переменной в наборе данных специалист по данным может столкнуться с огромными объемами связанных данных. Некоторые части этих данных не всегда полезны для прогнозирования и часто могут привести к тому, что модель будет работать хуже, чем если бы эти данные не были частью модели. Такое сокращение менее релевантных данных уменьшает переоснащение за счет уменьшения общего объема данных при сохранении наиболее релевантных элементов. Кроме того, с большими наборами данных и моделями время, необходимое для обработки информации, увеличивается.

По этим причинам важно удалить лишние данные и выбрать лучшие категории, чтобы создать лучшую модель и предсказать результат эксперимента. Этот процесс известен как выбор признаков.

Как выбираются лучшие функции?

При принятии решения о том, как исключить переменные или функции из модели машинного обучения, универсального решения не существует. Наиболее распространенные подходы можно разделить на три категории:

  • Методы фильтрации
  • Методы обертки
  • Встроенные (штрафные) методы

Пробуя и комбинируя несколько методов фильтрации, специалист по данным может выбрать набор функций, которые максимизируют возможности прогнозирования их модели.

Методы фильтрации

Прежде чем подгонять модель к данным, можно применить различные методы фильтрации, чтобы исключить информацию, которая не очень связана с целью. Каждая функция сопоставляется с целью с помощью соответствующего измерения корреляции для этой функции, и лучшие из них сохраняются для моделирования. Затем специалист по данным может повысить или понизить порог фильтрации, чтобы настроить свою модель.

Функции и целевые типы данных являются индикаторами того, какую статистику корреляции следует использовать. В приведенной ниже таблице показаны некоторые возможные метрики корреляции, которые можно использовать для различных взаимосвязей функция/цель.

Выбирая функции, которые коррелируют с целью, можно в значительной степени избежать переобучения, поскольку каждый термин не должен сильно различаться по сравнению с целью.

Методы обертки

Методы-оболочки используют производительность модели в качестве метрики для выбора функций. Несколько типов методов-оболочек для оптимизации модели показаны ниже:

  • Методы прямой оболочки начинаются с получения базовой оценки модели, в которой присутствует только цель. Затем функции можно добавлять постепенно и сохранять/исключать в зависимости от того, как изменились показатели оценки моделей. Это может быть хорошим методом, когда существует очень большое количество, казалось бы, нерелевантных функций, а специалист по данным хотел бы включить только некоторые из них.
  • Обратные методы-оболочки работают так же, как их прямые аналоги. Они начинают с того, что устанавливают базовый уровень со всеми включенными функциями и постепенно исключают их, пока модель не будет работать в лучшем виде. Это могут быть лучшие методы для наборов данных с меньшим количеством функций, поскольку большая часть информации может быть сохранена в окончательной модели.
  • Рекурсивные методы-обертки используют статистический показатель релевантности, такой как p-значение, для выбора функций. Это может быть выполнено несколько раз, пока не будет получена окончательная модель. Рекурсивные методы могут страдать от предвзятости, поскольку они переоценивают уже отобранную информацию. Пакет моделирования OLS от Statsmodels может очень просто соответствовать модели линейной регрессии и предоставлять статистические измерения для каждой функции.

Эти методы-оболочки отнимают очень много времени, но могут привести к лучшему пониманию функций, но могут страдать от переобучения.

Встроенные (штрафные) методы

В некоторых методах моделирования используются условия штрафа для устранения переобучения. Эти «встроенные» методы выбора признаков уменьшают дисперсию, создаваемую добавлением многих некоррелированных признаков, путем введения члена регуляризации. По мере увеличения этого члена регуляризации коэффициенты каждого члена уменьшаются до нуля. Находя оптимальный член регуляризации, эти методы выбирают лучшие признаки, фактически не удаляя их. Два распространенных встроенных метода моделирования, используемых в линейной регрессии, показаны ниже:

  • Регрессия хребта
  • ЛАССО Регрессия

Эти методы часто можно комбинировать с поиском по сетке и другими методами оптимизации гиперпараметров для создания эффективных моделей.

Выбор лучших функций

От Data Scientist потребуется комбинация методов, чтобы выбрать лучшие функции для своей модели. Им нужно будет рассмотреть количество записей и функций, доступных для анализа в их наборе данных, и начать анализировать то, что важно. Хотя определенного пути нет, некоторые шаги, которые они предпринимают, могут включать:

  • Исключение функций путем сопоставления их с целью и корректировки того, сколько из них нужно оставить в окончательной модели.
  • Ввод всех или «ни одного» данных в модель для определения базовой оценки производительности и добавления/удаления данных до тех пор, пока они не будут оптимизированы.
  • Оценка статистики функций модели и переобучение модели с обновленными функциями
  • Устранение эффекта признаков за счет минимизации коэффициентов регрессии во встроенных моделях
  • Объединение нескольких методов для создания модели, которая работает лучше, чем любая отдельная модель.

Какой бы подход ни был выбран, важно установить и сравнить каждую итерацию выбора функций с эталонными показателями производительности модели. Как только эта базовая линия установлена, каждое итеративное изменение модели может быть оценено. Со временем то, что первоначально казалось случайным поиском, начинает ощущаться как методичное исключение данных, которые не нужны в окончательной модели.

использованная литература

  • Разработка и выбор признаков: практический подход к прогностическим моделям (Макс Кун и Кьелл Джонсон, 2019–06–21)
  • Википедия (коэффициенты корреляции, регрессия гребня, регрессия LASSO)