Выбор функций всегда играет ключевую роль в машинном обучении

Нам всегда интересно, где тест хи-квадрат может быть полезен в машинном обучении и как этот тест имеет значение. Выбор функций - важная проблема в машинном обучении, где у нас будет несколько функций в очереди, и нам нужно будет выбрать лучшие функции для построения модели. Тест хи-квадрат помогает решить проблему выбора функций, проверяя взаимосвязь между функциями. В этой статье я расскажу

а. Распределение хи-квадрат.

б. Тест хи-квадрат для выбора функции

c. Тест хи-квадрат с использованием Python

Распределение хи-квадрат

Случайная величина ꭓ подчиняется распределению хи-квадрат, если ее можно записать как сумму квадратов стандартных нормальных переменных.

Степени свободы:

Степени свободы относятся к максимальному количеству логически независимых значений, которые могут изменяться. Проще говоря, его можно определить как общее количество наблюдений за вычетом количества независимых ограничений, наложенных на наблюдения.

На приведенном выше рисунке мы могли видеть распределение хи-квадрат для разных степеней свободы. Мы также можем заметить, что по мере увеличения степеней свободы распределение хи-квадрат приближается к нормальному распределению.

Тест хи-квадрат для выбора функции

Тест хи-квадрат используется в статистике для проверки независимости двух событий. Учитывая данные двух переменных, мы можем получить наблюдаемое число O и ожидаемое число E. Хи-квадрат измеряет, как ожидаемое число E и наблюдаемое число O отклоняются друг от друга.

Давайте рассмотрим сценарий, в котором нам нужно определить взаимосвязь между независимым категориальным признаком (предиктором) и зависимым категориальным признаком (откликом). При выборе функций мы стремимся выбрать функции, которые сильно зависят от ответа.

Когда две функции независимы, наблюдаемое количество близко к ожидаемому, поэтому у нас будет меньшее значение хи-квадрат. Столь высокое значение хи-квадрат указывает на то, что гипотеза независимости неверна. Проще говоря, чем выше значение хи-квадрат, тем больше функция зависит от отклика, и ее можно выбрать для обучения модели.

Шаги для теста хи-квадрат с примером:

Рассмотрим набор данных, в котором мы должны определить, почему клиенты уходят из банка, давайте проведем тест хи-квадрат для двух переменных. Пол клиента со значениями Мужской / Женский в качестве предиктора и Выход описывает, покидает ли клиент банк со значениями Да / Нет в качестве ответа. В этом тесте мы проверим есть ли связь между полом и выходом.

Шаги для выполнения теста хи-квадрат:

  1. Определите гипотезу.
  2. Создайте таблицу непредвиденных обстоятельств.
  3. Найдите ожидаемые значения.
  4. Рассчитайте статистику хи-квадрат.
  5. Примите или отклоните нулевую гипотезу.

1. определите гипотезу

Нулевая гипотеза (H0): две переменные независимы.

Альтернативная гипотеза (H1): две переменные не независимы.

2. Таблица непредвиденных обстоятельств

Таблица, показывающая распределение одной переменной по строкам, а другой - по столбцам. Он используется для изучения связи между двумя переменными.

Степени свободы для таблицы непредвиденных обстоятельств задаются как (r-1) * (c-1), где r, c - строки и столбцы. Здесь df = (2–1) * (2–1) = 1.

В приведенной выше таблице мы выяснили все наблюдаемые значения, и наши следующие шаги - найти ожидаемые значения, получить значение хи-квадрат и проверить взаимосвязь.

3. Найдите ожидаемую ценность

На основе нулевой гипотезы о том, что две переменные независимы. Мы можем сказать, что если A, B - два независимых события

Давайте посчитаем ожидаемое значение для первой ячейки, то есть тех, кто принадлежит к мужскому полу и вышел из банка.

Аналогичным образом мы вычисляем E2, E3, E4 и получаем следующие результаты.

4. Рассчитайте значение хи-квадрат.

Суммируя наблюдаемые значения и рассчитанные ожидаемые значения в таблицу, определите значение хи-квадрат.

Мы видим, что хи-квадрат рассчитывается как 2,22 с использованием статистической формулы хи-квадрат.

5. Примите или отклоните гипотезу о нуле.

С 95% уверенностью, что альфа = 0,05, мы проверим, что рассчитанное значение хи-квадрат попадает в область принятия или отклонения.

При степенях свободы = 1 (вычислено с помощью таблицы сопряженности) и альфа = 0,05 значение хи-квадрат составляет 3,84.

Значения хи-квадрат можно определить с помощью таблицы хи-квадрат.

Распределение хи-квадрат - это правая сторона, поскольку разница между наблюдаемыми и ожидаемыми значениями велика.

На приведенном выше рисунке мы можем видеть диапазоны хи-квадрат от 0 до бесконечности и альфа-диапазоны от 0 до 1 в противоположном направлении. Мы отклоним гипотезу о нуле, если значение хи-квадрат попадает в область ошибки (альфа от 0 до 0,05).

Итак, здесь мы принимаем нулевую гипотезу, поскольку значение хи-квадрат меньше критического значения хи-квадрат.

Таким образом, две переменные независимы, переменная Gender не может быть выбрана для обучения модели.

Ограничения

Хи-квадрат чувствителен к малым частотам в ячейках таблиц. Обычно, когда ожидаемое значение в ячейке таблицы меньше 5, хи-квадрат может привести к ошибкам в выводах.

Примечание. Здесь мы рассматривали образцы размером 400, и для образцов большего размера результаты могут отличаться.

Тест хи-квадрат с использованием Python

Вот приведенный ниже код о том, как выполнить тест хи-квадрат с использованием python.

То же самое можно найти и на GitHub.

До сих пор мы узнали о категориальном ответе и категориальном предикторе, но что, если у нас есть непрерывный ответ и категориальный предиктор ??? Мы будем использовать ANOVA. Пожалуйста, ознакомьтесь с моей статьей ANOVA для выбора функций в машинном обучении.



Надеюсь, вам понравилось !!! Прокомментируйте любые вопросы или предложения.