Использование теста хи-квадрат с python.

Выбор признаков — одна из важных концепций в темах машинного обучения, поскольку с его помощью мы можем повысить производительность модели, а также уменьшить количество входных переменных. Нерелевантные функции негативно повлияют на производительность модели машинного обучения. Выбор признаков выполняется перед обучением модели.

Выполняя выбор функций, он обнаружит функции, которые имеют отношение к обучению модели, которые лучше всего подходят для нашей модели, могут работать лучше и сокращают время обучения, а также улучшают производительность.

Из предыдущей статьи часть 2 мы используем студенческие наборы данных, чтобы найти функцию, которую можно использовать для обучения нашей модели.

Что такое критерий хи-квадрат

Прежде чем понять, что такое критерий хи-квадрат, следует запомнить терминологию.

  1. Сформулируйте гипотезу (нулевую гипотезу и альтернативную гипотезу).
  2. Статистическая значимость.
  3. Таблица сопряженности.
  4. уровень значимости.
  5. уровень уверенности.
  6. Степень свободы.
  7. P-значение.
  8. Критическое значение.
  9. Альфа-значение.

Аналитика имеет дело с тем, что вы знаете. Статистика имеет дело с тем, чего нет у вас.

Статистика хи-квадрат — это тест, который используется для измерения того, насколько ожидания соотносятся с фактическими наблюдаемыми данными. И он используется, чтобы определить, есть ли значительная разница между ожидаемыми частотами и наблюдаемыми частотами в одной или нескольких категориях.

Для проверки гипотез часто используется хи-квадрат. Гипотеза – это предположение или утверждение, которое мы хотим проверить,ИЛИобъяснение фактов и доказательств, сделанное в поддержку доказательств для начала (создания) дальнейшего анализа. Используя тест гипотезы, мы исследуем гипотезу Халла H0 и альтернативную гипотезу H1.

Теперь мы используем набор данных учащихся для поиска функций (также называемых выбором переменных или атрибутов), которые используются для обучения модели, здесь мы используем переменные выбора этих функций, чтобы предсказать оценку ученика для получения точных результатов.

Импорт пакета и загрузка набора данных. И подготовка данных для анализа хи-квадрат.

Для выполнения анализа критерия хи-квадрат все функции или переменные должны быть организованы в таблицу непредвиденных обстоятельств. На изображении выше нам нужно преобразовать Консультации в категориальные значения.

Для любого статистического анализа важно использовать числовые значения, используя Label Encoderпреобразовывая категориальные значения в числовые значения.

Статистика теста хи-квадрат

из sklearn.feature_selection импортировать chi2

P-значение (значение вероятности)

Переменная выбора функции визуализации, которая используется для обучения модели.

На приведенном выше изображении обратите внимание, что количество посещений имеет самое высокое значение P, график объясняет, что количество посещений не зависит от посещаемости и не может быть рассмотрены для модельного обучения.

Источник: - Подробнее на GitHub



Об авторе: Рагху Байя, специалист по данным, машинное обучение и глубокое обучение.

Эксперт по большим данным