Что такое выбор функций?

«Выбор функций - это процесс выбора подмножества соответствующих функций (переменных или предикторов) из всех функций, который используется для построения модели».

Благодаря количеству функций N (высокая размерность) анализ данных является сложной задачей для инженеров в области машинного обучения и интеллектуального анализа данных. Выбор функций дает эффективный способ решения этой проблемы путем удаления нерелевантных и избыточных данных, что может сократить время вычислений, улучшить точность обучения и способствовать лучшему пониманию модели обучения или данных.

Сколько функций должно быть в модели?

Одна важная вещь заключается в том, что мы должны учитывать компромисс между точностью прогноза и интерпретируемостью модели. потому что, если мы используем большое количество функций, точность прогнозов, вероятно, возрастет, а интерпретируемость модели снизится.

Если у нас меньше функций, то модель легко интерпретировать, меньше вероятность переобучения, но это даст низкий прогноз точность.

А если у нас большое количество функций, то модель трудно интерпретировать, с большей вероятностью будет переоснащено, и это даст высокий прогноз точность.

Итак, в указанной ниже статье есть несколько способов выбора количества функций для модели.

Типы выбора функций.

Большое количество функций в данных увеличивает риск переобучения модели.

Метод выбора функций помогает уменьшить размер функций без большой потери информации.

В этой статье ниже приведены некоторые методы, используемые для выбора функций.

  1. Метод фильтрации.

Методы фильтрации также называются однофакторным анализом. С помощью этого метода оценивается предсказательная сила каждой отдельной переменной (характеристики). . Для определения предсказательной силы можно использовать различные статистические средства. Один из способов - сопоставить объект с целью (что мы прогнозируем). Признаки с наибольшей корреляцией являются лучшими. Другой способ определить прогнозирующую способность - определить прогнозирующую (или информационную) ценность функции.

Например: Y - целевая переменная, а (X1, X2, X3,… Xn) - независимые переменные. мы выясняем корреляцию между целевой переменной по отношению к независимым переменным. (Y → X1), (Y → X2), (Y → X3),… (Y → Xn). Таким образом, функции, которые имеют самый высокий Выбор характеристик корреляции (CFS) с Y, мы выбираем их как лучшие.

2. Метод обертки.

В методах оболочки используются комбинации переменных для определения предсказательной силы. Общие методы оболочки включают в себя: выбор подмножества, шаг вперед и шаг назад (RFE). Метод-оболочка найдет лучшую комбинацию переменных. Метод-оболочка фактически проверяет каждую функцию на тестовых моделях, которые он строит с ними, для оценки результатов. Из всех трех методов это требует больших вычислительных ресурсов. Не рекомендуется использовать этот метод для большого количества функций.

a. Выбор подмножества.

В разделе «Выбор подмножества» мы подбираем модель со всеми возможными комбинациями N функций.

допустим, у нас есть N независимых предикторов (функций) в наборе данных, поэтому общее количество моделей в выбранном подмножестве будет 2 ^ N моделей. предположим, что у нас N = 2 (допустим, X1 и X2). так что у нас будет 2² = 4 модели.

(Y = B0 , Y = B0 + B1*X1 , Y = C0 + C1*X2 , Y = D0 + D1*X1 + D2*X2)

Выбор подмножества требует огромных вычислительных мощностей для выполнения, предположим, N = 10, тогда общее количество моделей будет 2¹⁰ = 1024 моделей. Чтобы уменьшить эту вычислительную мощность, он разделен на 2 части.

Часть 1 → сопоставьте всю комбинацию моделей, в которой есть только k предикторов из общего числа N предикторов. Выберите лучшую модель из набора всех k предикторов моделей (Model (k)). предположим, что у нас есть 4 предиктора (X1, X2, X3, X4), т.е. N = 4.

скажем k = 1, тогда у нас будет 4 модели, т.е. (Y = f (X1), Y = f (X2), Y = f (X3), Y = f (X4)) ). мы вычисляем эти 4 модели и выбираем из них лучшую.

Теперь предположим, что k = 2, тогда у нас будет 6 моделей, то есть (Y = f (X1, X2), Y = f (X1, X3), Y = f (X1, X4) ), Y = f (X2, X3), Y = f (X2, X4), Y = f (X3, X4)). Мы вычисляем эти 6 моделей и выбираем из них лучшую. и мы делаем это для значений k.

Часть 2 → Выберите одну лучшую модель из k моделей, то есть Модель (1), Модель (2)… Модель (N). чтобы выбрать лучшую модель, мы использовали (RSS (остаточная сумма квадратов), ошибка перекрестной проверки или скорректированный квадрат R).

Примечание → Используйте тестовую ошибку, чтобы оценить лучшие функции, иначе, если мы будем использовать ошибку обучения для выбора, мы можем в конечном итоге выбрать модель, которая имеет ровно N функций.

б. Прямой пошаговый выбор.

Вперед Пошаговый выбор изначально начинается с нулевой модели. начинается с переменной в модели.

Затем мы добавляем предикторы (функции) по одному и выбираем лучшую модель среди лучших моделей каждого k на основе RSS, CV или скорректированного R квадрат.

В этом методе после выбора предиктора он никогда не падает на втором этапе.

Это повторяется до тех пор, пока не будет выбрано лучшее подмножество «k» предикторов (признаков).

При прямом выборе выбор ограничен, поскольку предиктор, который в модели никогда не падает. поэтому модели выбора при прямом выборе становятся 1+ N (N +1) / 2.

как мы видели выше, когда N = 10 в выборе подмножества, общее количество моделей было 1024, но при прямом выборе это снижает вычислительную мощность, то есть общая модель в этом методе будет 211.

c. Обратный пошаговый выбор (рекурсивное исключение признаков).

Обратный выбор работает в противоположном направлении, поскольку он исключает возможности. Поскольку они не запускаются для каждой комбинации функций, они на порядки менее требовательны к вычислениям, чем прямой выбор подмножества.

По сути, это противоположно прямому пошаговому выбору. он начинается со всех предикторов, затем отбрасывает по одному предиктору за раз, а затем выбирает лучшую модель.

Кроме того, вычислительная мощность очень похожа на Прямой выбор.

3. Встроенный метод (усадка).

Embedded Method - это встроенный метод выбора переменной. мы не выбираем и не отклоняем предикторы или переменные в этом методе. это контролирует значение параметров, т.е. не столь важным предикторам присваивается очень низкий вес (близкий к нулю), это также известно как Регуляризация.

а. Регрессия LASSO, метод, который упорядочивает оценки или уменьшает коэффициенты предикторов до нуля. в лассо некоторые коэффициенты стремятся к нулю (β = 0). вот почему мы отбрасываем или отклоняем такие предикторы, которые дают (β = 0).

б. RIDGE Regression, этот добавляет штраф, равный квадрату величины коэффициентов. Все коэффициенты уменьшаются на один и тот же коэффициент (поэтому ни один из предикторов не исключается).

Параметр настройки (λ) контролирует силу штрафного члена. Когда λ = 0, регрессия гребня равна регрессии наименьших квадратов. Если λ = ∞, все коэффициенты стягиваются до нуля. Таким образом, идеальный штраф находится где-то между 0 и ∞.

Примечание → нет гарантии, что выбор функции приведет к повышению производительности, может он сработает или нет. Если предикторы одинаково важны для проблемы, удаление или отклонение предикторов будет вредным.

Это некоторые методы выбора функций, есть еще много способов сделать выбор функций.

Надеюсь, вам понравится эта статья. Удачного обучения !!!!