Поправка Йейтса на непрерывность используется в конкретном сценарии при проверке независимости в таблице сопряженности.

Определение
Чтобы понять статистику хи-квадрат Пирсона с использованием распределения хи-квадрат, необходимо предположить, что непрерывное распределение хи-квадрат может представлять дискретную вероятность наблюдаемого биномиальные частоты в таблице. В этом предположении есть предвзятость.

Чтобы исправить это смещение, мы делаем Коррекцию непрерывности Йейта на 0,5, вычитаемую из разницы между каждым наблюдаемым и прогнозируемым значением в таблице непредвиденных обстоятельств 2x2.

Формула
Поправка Йейтса направлена ​​на то, чтобы статистическая значимость не была завышена при наличии небольших объемов данных.

В большинстве случаев эта формула используется, когда хотя бы одна ячейка в таблице имеет ожидаемое количество меньше 5.Ниже приведена формула для поправки Йейта на непрерывность.

Пример
Это тот же пример, который мы использовали для теста независимости хи-квадрат и поправки Йейта на непрерывность, но числа другие. В тесте Хи-квадрат независимости мы используем значения, большие или равные 5 или 10, но в данном случае мы использовали одно значение, меньшее или равное 5. Для выполнения этого теста необходимо выполнить это условие.

Давайте теперь определим ожидаемые значения. Вот формула для расчета ожидаемых значений — Сумма строки * Сумма столбца / Общая сумма.

Статистика теста
Мы можем использовать формулу 1, чтобы найти статистику теста хи-квадрат.

Для мужчин, играющих в футбол = (|11–7,77|- 0,5)² / 7,77 = 0,9591
Для женщин, играющих в футбол = (|3–6,22 |- 0,5)² /6,22 = 1,1889
Для тенниса -играющий мужчина = (|14–17,22|- 0,5)² / 17,22 = 0,4296
Для играющей в теннис женщина = (|17–13,77|- 0,5)² / 13,77 = 0,5412

Сложим их все вместе = 0,9591 + 1,1889 + 0,4296 + 0,5412 = 3,1188.

X² = 3,1188
Степень свободы = (строки - 1) * (столбцы - 1) = (2–1)*(2–1) = 1
Теперь будем найдите значение P, используя статистику теста и степень свободы. С помощью этого калькулятора мы нашли значение p = 0,077394 для значимого уровня 0,05.

Заключение.Поскольку это значение p превышает 0,05, мы не можем отвергнуть нулевую гипотезу. В результате делается вывод о том, что недостаточно доказательств, позволяющих предположить связь между переменными пола и спорта.

Программирование на R
Давайте возьмем приведенный выше пример для решения теста хи-квадрат с помощью программирования на R.