В этом блоге я более понятно объясню вам, что такое критерий хи-квадрат и как его можно использовать для анализа данных.

Тест хи-квадрат

Обычно все происходит не так, как вы ожидаете от статистических данных. В решениях, которые принимают люди, может быть скрытая предрасположенность, или, возможно, информация поступает неравномерно. Мы используем уникальный статистический тест, называемый тестом хи-квадрат, чтобы сравнить ожидаемое и неожиданное. Это уникальный вид теста, который управляет частотой данных, а не средним значением, как в других статистических тестах.

Тест хи-квадрат часто определяет, следует ли сохранить нулевую гипотезу или проблему исследования. Если у вас есть две категориальные переменные в ваших данных, и вы хотите проверить взаимосвязь между ними, то для этой цели подойдет тест хи-квадрат. Для любого анализа данных важно сформулировать план исследования (тестовая статистика, уровень значимости). Он должен описывать, как использовать данные для принятия или отклонения нулевого значения. Предположим, если вы хотите провести проверку хи-квадрат для проверки независимости двух категориальных переменных, то основные требования к анализу следующие:

1. Степени свободы

2. Ожидаемые частоты

3. Тестовая статистика

P-значение

Позвольте мне объяснить вам, что именно делает хи-квадрат и как его можно использовать для анализа данных, на примере.

Я люблю смотреть фильмы ужасов. С большим любопытством я однажды спросил некоторых своих одноклассников, любят ли они смотреть фильмы ужасов. Итак, я собрал данные, чтобы исследовать их и выявить некоторые закономерности. И данные, которые я получил:

Люблю смотреть фильмы ужасов

да

No

Женщины

32

38

Мужчины

30

12

Всего

62 (55.4%)

50 (44.6%)

Глядя на данные, может показаться, что и мужчины, и женщины смотрят фильмы ужасов в равной пропорции. Однако, если присмотреться, это не так! Это то место, где предвзятость играет важную роль. Эта ситуация заставила меня проанализировать данные на предмет статистической значимости.

В этом случае нет средних значений для работы!

Что ж, данные носят чисто категорический характер, поэтому я должен использовать тест, который работает с данными подсчета, а не со средними значениями. Чтобы проверить статистическую значимость для этой ситуации, я бы адаптировал наиболее широко используемый тест хи-квадрат, как и другие тесты, такие как t-тест и F-тест для средних значений. Проблема претензии или постановка проблемы:

Нулевая гипотеза: нет существенной разницы между предпочтениями в отношении фильмов и полом.

Альтернативная гипотеза: существует значительная разница между предпочтениями в отношении фильмов и полом.

А из Agresti (2002) статистику теста хи-квадрат можно представить как

Теперь возникает вопрос! Каково здесь ожидаемое среднее значение? Как вы рассчитываете?

Перед этим нам нужно сформулировать нулевую гипотезу о том, что участники, которые любят смотреть фильмы ужасов, независимы от пола. Рассчитаем ожидаемые частоты для расчетных целей.

Шанс женщины, которая любит смотреть ужастики (Женщины-да) равен (70/112) * (62/112) = 38,75. Аналогичным образом рассчитываются другие ожидаемые частоты, и оказывается, что женщины-нет = 31,25, мужчины-да = 23,25 и мужчины-нет = 18,75.

Таким образом, значение хи-квадрат будет равно 7,02 на основе формулы. Затем мы должны принять решение, является ли оно статистически значимым или нет. Для этого нужно сравнить значение с критическим значением распределения с соответствующими степенями свободы. Степени свободы рассчитываются как (количество строк -1) * (количество столбцов -1). Если расчетное значение превышает критическое, то делаем вывод об отсутствии независимости. Таким образом, для этого примера с фильмами ужасов наше расчетное значение выше критического значения с 1 степенью свободы и уровнем значимости 5%, что приводит к отклонению нулевой гипотезы (т. е. симпатия к фильмам ужасов не зависит от пола).

Основное использование статистики хи-квадрат заключается в проверке статистической значимости между наблюдаемыми и ожидаемыми частотами, и она применима только тогда, когда данные носят номинальный характер. Критерий хи-квадрат аналогичен непараметрическому критерию Колмогорова. Кроме того, критерий хи-квадрат имеет определенные ограничения: если ожидаемые значения меньше 5, то критерий хи-квадрат может привести к неверным результатам. Кроме того, при небольшом размере выборки критерий хи-квадрат не даст приемлемых результатов.

Использование критерия хи-квадрат для анализа данных:

Давайте рассмотрим ситуации, когда тест хи-квадрат полезен для анализа данных.

  1. Маркетинговая компания хочет определить взаимосвязь между географическим положением клиента и его предпочтениями в отношении бренда. В таком случае хи-квадрат играет важную роль, и, основываясь на значении статистики, компания будет разрабатывать свою маркетинговую стратегию в разных местах для получения прибыли.
  2. Тест хи-квадрат будет полезен для анализа данных, чтобы проверить однородность или независимость между категориальными переменными или проверить соответствие рассматриваемой модели.
  3. Он обладает гибкостью в обработке двух или более групп переменных. И он используется в различных областях, таких как область исследований, маркетинг, финансы и экономика, психология, медицина и т. д.
  4. Это тест без распределения или просто непараметрический тест, используемый для категориальных данных, и он более надежен в отношении распределения данных.
  5. Он не требует среднего значения или дисперсии, как в других тестовых статистических данных, таких как t-тест, F-тест, ANOVA и т. д.
  6. Этот тест легко вычислить, и с помощью этого теста можно получить подробную информацию, и его легко выполнить в программном обеспечении, таком как R, SAS, SPSS и т. Д.

Основное применение статистики хи-квадрат можно найти в области медицины. Если исследователь хочет определить эффективность препарата в контрольной группе, то критерий хи-квадрат удовлетворит потребности. Точно так же во многих областях все еще используется статистический хи-квадрат комплексного теста для определения взаимосвязи между двумя категориальными результатами.