ХИ-КВАДРАТ ИСПЫТАНИЙ

CSTSeries#1 — Тест на ассоциации

Введение

Тесты хи-квадрат, также известные как тесты хи-квадрат или тесты согласия хи-квадрат, представляют собой статистические тесты, используемые для определения наличия значительной связи между двумя категориальными переменными. Эти тесты на основе статистики хи-квадрат, которая измеряет разницу между наблюдаемыми и ожидаемыми частотами в таблице непредвиденных обстоятельств.

Критерий хи-квадрат оценивает, существенно ли отличаются наблюдаемые частоты категорий в выборке от ожидаемых частот, предполагая, что между переменными в генеральной совокупности нет истинной связи. Это помогает определить, есть ли основания отвергать нулевую гипотезу о независимости или отсутствии связи между переменными.

Тесты хи-квадрат обычно используются в различных областях, таких как социальные науки, биология, медицина, исследования рынка и контроль качества. Они дают представление о взаимосвязи между категориальными переменными и помогают исследователям принимать обоснованные решения на основе статистической значимости ассоциаций.

По сути, мы собираемся научиться анализировать категориальные данные.

Критерии хи-квадрат используются для,

  • Дискретные данные — Целые числовые переменные. Пример: количество членов семьи.
  • Категориальные данные — пример: пол, семейное положение

В тестах хи-квадрат у нас есть 2 типа тестов

  1. Тест на ассоциации
  2. Тест на пригодность

Тест на ассоциации

Используется для определения того, являются ли два фактора независимыми.

Гипотеза теста такова,

  • H₀: факторы независимы.
  • H₁: факторы не являются независимыми.

Поскольку это проверка гипотез, нам нужно выполнить все шаги, которые мы сделали при проверке гипотез.

1ˢᵗ шаг в проверке гипотезы — нам нужно определить нашу гипотезу.

Это означает нулевую и альтернативную гипотезы.

Если это тест на ассоциацию, всегда для нулевой гипотезы (H₀), мы собираемся предположить, что два фактора независимы.

Это означает, что 2 категориальные переменные независимы.

А для альтернативной гипотезы (H₁) мы предполагаем, что две категории не являются независимыми. (это значит, что они как-то связаны)

Итак, это то, что мы проверяем с помощью теста на ассоциацию.

2ⁿᵈ шаг проверки гипотезы — статистика теста.

Это означает, что мы собираемся определить уравнение для проверки нашей нулевой гипотезы.

Мы всегда определяем это как H₀ (при условии, что H₀ верно)

Тестовая статистика, ниже H₀,

  • Oᵢⱼ — Наблюдаемая частота для ячейки ij
  • Eᵢⱼ — ожидаемая частота для ячейки ij
  • 𝑑𝑓 = (𝑁𝑜 𝑜𝑓 𝑟𝑜𝑤𝑠 − 1)(𝑁𝑜 𝑜𝑓 𝑐𝑜𝑙𝑢𝑚𝑛𝑠 − 1)

Это тестовая статистика, которую мы собираемся использовать.

Здесь мы произносим X² как «хи-квадрат».

Хи-квадрат = сумма для всех i, j (уравнение выше)

  • Если в вопросе задано проверить, являются ли 2 категориальные переменные независимыми, они дадут вам проблему с двусторонней таблицей частот. Они называются наблюдаемыми счетчиками (Oij).

Пример: проверка того, являются ли пол и образовательная квалификация независимыми или нет.

В вопросе они предоставят двустороннюю частотную таблицу с выборочными данными.

Здесь 5 означает → 5 мужчин, которые прошли o/l

Таким образом, это 5 - это количество наблюдаемых. Точно так же все числа в этой двусторонней таблице частот являются наблюдаемыми. (Oᵢⱼ)

i , j представляют номер строки и номер столбца соответственно.

Ex:

  • O₁₂ = 10
  • O₂₃ = 0

Обозначения 2 zigma предназначены для представления номеров строк и номеров столбцов в уравнении.

  • Eᵢⱼ на экзамене не дадут, это надо посчитать
  • Для каждой ячейки мы можем рассчитать ожидаемое количество.

🛑Мы берем разницу между наблюдаемым и ожидаемым количеством, возводим ответ в квадрат и, наконец, делим его на соответствующее ожидаемое количество.

Шаг (🛑) выше, который мы собираемся применить для каждой ячейки и суммировать. Это значение будет вашей тестовой статистикой.

Это будет следовать (~) распределению хи-квадрат с уменьшением параметра свободы (d.f) → X²d.f (это еще одно распределение, которое мы имеем при распределении вероятностей)

Несколько примеров типов дистрибутивов.

  • Бернулли
  • Биномиальный
  • Пуассон
  • экспоненциальный
  • Номинальный

Кроме них, при проверке гипотез у нас есть еще одно распределение, а именно Т-распределение. (это также подкласс нормального распределения)

Точно так же у нас есть другое распределение, которое называется распределением хи-квадрат.

Если вы знаете про Бернулли, то для Бернулли у нас был только 1 параметр, p — вероятность успеха

Для бинома у нас было 2 параметра, n и p

Для нормального распределения у нас было 2 параметра, среднее значение и дисперсия.

Точно так же параметром распределения хи-квадрат будет уменьшение свободы (d.f).

  • df = (Количество строк — 1) X (Количество столбцов-1)

Нет строк означает нет. уровней в одной категориальной переменной

Нет столбцов означает нет. уровней в другой категориальной переменной.

Если вы нарисуете распределение хи-квадрат, оно всегда будет положительно асимметричным. (длинный правый хвост)

3ʳᵈ шаг, определяющий уровень значимости

Это означает, что мы собираемся выделить место для ошибки.

Поскольку это также проверка гипотез, мы не получаем 100% точных результатов. Таким образом, мы выделяем место для ошибки.

Итак, мы рассматриваем уровень α%.

В вопросе, если указано (α%), вы можете использовать это значение, если не задано, используйте значение по умолчанию, равное 5%.

Шаг 4ᵗʰ — мы должны определить область отклонения.

мы узнали ранее, что хи-квадрат имеет положительно асимметричное распределение.

Мы собираемся выделить нашу общую ошибку только для правой стороны (RHS) распределения. (Это будет ваш регион отклонения)

Если рассчитанное значение хи-квадрат попадает в область отклонения, мы собираемся отклонить H₀.

Значение X²df,α% → мы берем из таблицы хи-квадрат.

Шаг 5ᵗʰ вычисляет статистическое значение теста.

Используйте ранее определенное уравнение.

  • Найдите ожидаемые частоты для каждой ячейки.
  • Рассчитать статистическое значение теста.

Заключительный этап

  • Сравните рассчитанное статистическое значение теста с критическим значением и дайте заключение.

Важно ❗

После того, как вы подсчитаете ожидаемое количество, прежде чем вычислять значение тестовой статистики, вы собираетесь проверить, не нарушают ли ожидаемые подсчеты 2 правила, приведенные ниже.

Правило 01:

  • Все ожидаемые значения должны быть больше 5.

Если правило 01 выполнено, нет необходимости проверять правило 02. Вы можете продолжить вычисление статистического значения теста.

Поскольку выполнение правила 01 означает, что оно автоматически удовлетворяет правилу 02. Теперь вы это поймете. Проверьте правило 02.

Правило 02:

  • Все ожидаемые значения должны быть больше 1, и по крайней мере 80 % ячеек должны иметь ожидаемое значение, превышающее или равное 5.
  • Если нет, категории могут быть объединены.

Если правило 01 нарушено, вы проверите правило 02.

Если правило 02 выполнено, даже если правило 01 нарушено → Мы все еще можем рассчитать значение тестовой статистики.

ЕСЛИ ОБА ПРАВИЛА НАРУШЕНЫ, перед вычислением статистического значения теста вы должны осмысленно объединить категории, чтобы получить минимальное ожидаемое значение равное 5.

Пример — Применить тест для ассоциации

В следующей таблице представлена ​​классификация по религиозной принадлежности и семейному положению для 500 случайно выбранных лиц. Для α = 1% проверьте нулевую гипотезу о том, что семейное положение и религиозная принадлежность независимы.

Проверьте, можете ли вы решить вопрос самостоятельно, прежде чем обращаться к ответу.😅

Ответ ✅

Красный цвет. Комментарий на изображении 7 выше. Прежде чем вычислять это, нам нужно посмотреть, выполняется ли правило 01 или 02.

Здесь Правило 01 выполнено, поэтому мы можем продолжить вычисление статистического значения теста.

Это все, что вам нужно узнать о Тесте на ассоциации. 😄

До встречи на CSTSeries#2 — Goodness of Fit Test.