Все, что вам нужно знать о тесте хи-квадрат

Тест хи-квадрат — это метод проверки гипотезы. Два обычных теста хи-квадрат проверяют, соответствует ли частота, наблюдаемая в одной или нескольких категориях, ожидаемой частоте в курсе по науке о данных и машинному обучению.

Является ли критерий хи-квадрат таким же, как критерий χ²?

Да, χ — это греческая буква хи.

Какие варианты у вас есть?

Если у вас есть только одна измеряемая переменная, используйте критерий согласия хи-квадрат. Если у вас есть две измеряемые переменные, используйте независимый критерий хи-квадрат. Существуют и другие тесты хи-квадрат, но эти два являются наиболее распространенными.

Типы критерия хи-квадрат

Используйте критерий хи-квадрат, чтобы проверить гипотезу о том, что данные соответствуют ожиданиям. Основная идея теста состоит в том, чтобы сравнить наблюдения в данных с ожидаемым значением, чтобы увидеть, верна ли нулевая гипотеза длябустинга. В тестах хи-квадрат используются два общих атрибута: критерий согласия хи-квадрат и независимый критерий хи-квадрат припакетной нормализации. Оба теста включают переменные, которые классифицируют данные. В результате люди могут запутаться в том, какой тест использовать.

Как выполнить тест хи-квадрат?

Выполните ту же аналитическую процедуру, которая описана ниже, как для теста качества хи-квадрат, так и для независимого теста хи-квадрат в лучших онлайн-курсах по аналитике данных. Посетите каждую страницу типа теста, чтобы увидеть фактические шаги в этих шагах.

Предположения для теста хи-квадрат

Как и другие статистические тесты, тест хи-квадрат имеет несколько уникальных допущений.

χ2 предполагает, что данные исследования получены методом случайной выборки. Они случайно выбраны из населения. Категории взаимоисключающие. То есть каждый предмет относится только к одной категории онлайн-курса по науке о данных. Например, из примера выше нельзя ввести количество людей, обедавших в ресторане в понедельник, в категорию вторник. Данные должны отображаться по частоте или количеству в определенной категории, а не в процентах. Данные не обязательно должны состоять из пар выборок или групп. Кроме того, наблюдения должны быть независимыми друг от друга. Хи-квадрат недоступен, если значение, превышающее или равное 20% ожидаемой частоты, меньше 5.

Чтобы решить эту проблему: вам нужно объединить категории или получить больше данных, только если они релевантны Тип теста хи-квадрат (путем ручного расчета и реализации в R) Тест пригодности хи-квадрат Это непараметрический тест. Обычно это используется, чтобы выяснить, насколько наблюдения для конкретного события значительно отличаются от ожидаемых значений. В этом случае проверьте, есть ли у вас категориальные данные для независимой переменной и распределение данных похоже на ожидаемое распределение.

Рассмотрим приведенный выше пример ученого-исследователя, работающего над взаимосвязью между размещением студентов и их C.G.P.A. на факультете статистики престижного университета. Я был заинтересован в этом. В этом случае независимые переменные CGPA меньше, чем категории 910, 89, 78, 67 и 6.

Статистический вопрос здесь заключается в том, равномерно ли распределены наблюдаемые частоты размещенных студентов в разных категориях CGPA (т. е. не в нашей) в теоретическом распределении частот каждой категории CGPA. , включает такое же количество учащихся). Перед сбором данных определите нулевую гипотезу и альтернативную гипотезу. Определяет альфа-значение. Главное – рискнуть сделать неверные выводы. Например, предположим, что вы установили α = 0,05 в своем тесте на независимость. Здесь мы выбрали 5%-ный риск того, что две переменные независимы, даже если на самом деле они не независимы. Проверьте данные на наличие ошибок. Проверьте предварительные условия теста. (Подробные сведения о предварительных требованиях см. на странице каждого типа теста.) Пройдите тест и сделайте выводы.

Оба критерия хи-квадрат в приведенной выше таблице включают расчет тестовой статистики. Основная идея теста заключается в сравнении фактических значений данных с ожидаемыми значениями, если нулевая гипотеза верна. Тестовая статистика включает в себя нахождение квадрата разницы между фактическими и ожидаемыми значениями данных и деление разницы на ожидаемое значение данных. Сделайте это для каждой точки данных и добавьте значение.

Затем сравните тестовую статистику с теоретическим значением распределения хи-квадрат. Теоретическое значение зависит как от значения альфа, так и от степени свободы данных. Подробный пример см. на странице каждого типа теста.

Все, что вам нужно знать о тесте хи-квадрат

Вопросы по теме