Краткое изложение исследовательской статьи, опубликованной Венкатеш Бачу и Дж. Анурадха.

Предисловие

Вдохновленный тем, что люди читают и резюмируют исследовательские работы по машинному обучению в течение 30 дней, я решил прочитать больше исследовательских работ по машинному обучению (чтобы получить доступ к передовым исследованиям в области машинного обучения) и обобщить свои выводы.

Ниже моя первая попытка — краткое изложение «A Review of Feature Selection and its Methods» Венкатеша Бачу и Дж. Анурадхи. В этом сообщении в блоге рассказывается о том, как методы выбора признаков обеспечивают несколько преимуществ при подготовке модели.

Введение

Увеличение объема данных (как по вертикали, так и по горизонтали) непреднамеренно добавляет шум и нерелевантные данные и вызывает общее снижение качества данных. Кроме того, обработка дополнительного объема данных требует дорогостоящих вычислений. Чтобы справиться с этим проклятием размерности, методы выбора признаков чаще всего используются для уменьшения размера данных, хранения и вычислений и использования только тех признаков, которые увеличивают общую прогностическую силу модели.

Процедура выбора функции состоит из 5 шагов:

  1. Направление поиска – включает прямой, обратный и случайный поиск. Прямой поиск добавляет новые функции рекурсивно, обратный поиск начинается с полного набора функций и удаляет их, в то время как случайный поиск добавляет и удаляет функции итеративно.
  2. Стратегия поиска. После выбора направления поиска можно использовать стратегию поиска — рандомизированный, экспоненциальный или последовательный поиск. У каждого есть свои преимущества и недостатки.
  3. Критерии остановки. Предопределенные критерии остановки, такие как количество функций, количество итераций, функция оценки и т. д., позволяют найти оптимальное подмножество функций.
  4. Проверка результатов. Такие методы, как перекрестная проверка, матрица путаницы и меры на основе сходства Жаккара, могут дать объективную оценку ошибки.
  5. Критерии оценки — методы фильтрации, методы-оболочки и встроенные методы.
  • Методы фильтрации — модель начинается со всех признаков и выбирает подмножество лучших признаков на основе статистических показателей, таких как корреляция Пирсона, хи-квадрат или линейный дискриминантный анализ. Каждой функции присваивается значение оценки (с использованием показателей расстояния, корреляции или прироста информации), а лучшие функции выбираются на основе предварительно определенного порога. Метод фильтра является вычислительно недорогим.
  • Методы обертки — выбор подмножества функций выбирается на основе индуктивных алгоритмов. Измеряется точность обучающей модели по выбранным функциям, а затем рекурсивно добавляются или удаляются функции из выбранного подмножества. Методы-оболочки включают генетические алгоритмы. Методы-оболочки хороши для точности классификации, но требуют больших вычислительных ресурсов.
  • Встроенные методы. В процессе обучения выбирается лучшее подмножество функций. Поскольку выбор функций и обучение модели происходят одновременно, встроенные модели не проводят переобучение модели каждый раз, когда добавляется новая функция, что снижает ее вычислительные затраты по сравнению с методами-оболочками.

Вывод

Снижение размерности (путем выбора признаков) может дать несколько преимуществ: требуется меньше памяти и места, снижается риск переобучения, сокращается время и сложность, что приводит к лучшей объяснимости. На основе данных и проблемных потребностей можно применить соответствующий выбор функций.