дисперсионный анализ

Дисперсионный анализ, также известный как ANOVA, используется, чтобы выяснить, являются ли результаты некоторых экспериментов значимыми или нет. Другими словами, если группы похожи друг на друга, т. е. принадлежат к одной и той же совокупности, или уникальны, т. е. обладают некоторыми характеристиками, выделяющими их из совокупности.

Нулевой гипотезой для ANOVA является Ho=µ1=µ2=µ3, а альтернативной гипотезой является Hα=по крайней мере одно среднее не равно.

В этом блоге я расскажу, почему используется дисперсионный анализ, его предположения, количество способов, типы изменчивости, объясняемые им, математику, стоящую за ним, а затем то, как мы отклоняем или принимаем нулевую гипотезу.

Почему АНОВА?

Предположим, что имеется три выборки µ1, µ2 и µ3. Чтобы проверить, равны ли выборочные средние или нет, мы можем выполнить t-тест для каждой пары. Нулевая гипотеза, соответствующая которой будет;

Ho:µ1=µ2,α=0.05

Ho:µ2=µ3,α=0.05

Ho:µ3=µ1,α=0.05.

Здесь α — это ошибка 1-го типа, которая отвергает нулевую гипотезу, когда она верна, также называется уровнем значимости. Выполнение t-критерия для каждой пары с уровнем значимости 0,05 приведет к ошибке, которая составит 0,857 (0,95*0,95*0,95, ошибка каждого теста). Это увеличит ошибку типа 1 с 0,05 до 0,143, поскольку α=1-ошибка(.857), т. е. ошибка типа 1 увеличится с 5% до 14,3%, что является огромным скачком. Чтобы избежать этого, мы используем ANOVA.

Предположения

Есть три предположения для ANOVA;

распределения должны иметь одинаковую дисперсию.
Население должно быть нормально распределено, т. е. асимметрия = 0, эксцесс = 3, среднее = медиана = мода.
Образцы должны быть независимы друг от друга.

Количество способов в ANOVA

Количество способов относится к количеству независимых переменных, используемых для анализа. Однофакторный дисперсионный анализ использует только одну независимую переменную. Когда имеется более одной целевой переменной, мы называем это MANOVA или многомерным дисперсионным анализом.

Типы изменчивости

Anova описывает два типа изменчивости: изменчивость внутри и изменчивость между. Изменчивость внутри — это разброс данных внутри каждой группы, который изображен заштрихованной областью группы на рисунке выше, а изменчивость между ними — это отклонение средних значений групп друг от друга, показанное сплошной черной линией.

Математика позади Anova

давайте рассмотрим три группы с пятью наблюдениями, как показано на рисунке выше.

Ниже приведены термины, которые мы будем использовать в этом разделе.

n = количество наблюдений в группе

N = общее количество наблюдений

µ = среднее значение населения

µ1, µ2 и µ3 = среднее по группе

л = количество групп

Xil = i-е наблюдение l-й группы

Рисунок выше иллюстрирует нулевую и альтернативную гипотезы. В левой половине рисунка показано, что среднее значение для каждой группы равно среднему по совокупности, а в правой половине рисунка показано, что по крайней мере одна группа имеет среднее значение, отличное от среднего по совокупности (в этом случае все группы имеют разные средние значения). ).

на рисунке выше наблюдение может быть представлено как сумма среднего значения совокупности, его отклонения партии от совокупности и его отклонения от среднего значения партии.

Поскольку нам нужно вычислить дисперсию, возвести в квадрат и суммировать с обеих сторон,

В полученном выше уравнении последний член будет сокращаться при вычислении суммирования, так как χil станет равным µL, поскольку он будет суммироваться по всем наблюдениям каждой группы.

выше я разбил суммирование и умножил первый член RHS на n, поскольку мы рассматриваем только среднее значение групп. Члены, полученные в приведенном выше уравнении, общая сумма квадратов (SST), сумма квадратов между (SSB) и сумма квадратов внутри (SSW).

Приведенное выше уравнение получается после деления каждого члена на соответствующие степени свободы. Термины в левой части представляют собой среднюю сумму квадратов между (MSB) и среднюю сумму квадратов в пределах (MSW) соответственно.

Как гипотеза отвергается или принимается?

Если MSB больше, чем MSW, или значение больше нуля, то мы отвергаем Ho, в этом случае хотя бы одно среднее значение является выбросом, и каждая группа является узкой, то есть отличной друг от друга.

Если MSB и MSW одинаковы или их значение прибл. равны единице, то мы не можем отбросить Ho, значит группы близки друг к другу и их трудно различить.

Если MSB меньше, чем MSW, или значение меньше нуля, то мы не можем отклонить Ho, средние значения групп очень близки к общему среднему, и группы перекрывают друг друга.

Преимущества и недостатки Manova и Anova

Преимущества:

1. Manova позволяет тестировать несколько зависимых переменных.

2. Manova может защитить от ошибки первого рода.

Недостатки:

1. MANOVA сложен по сравнению с ANOVA, что затрудняет анализ того, какая независимая переменная влияет на зависимую переменную.

2. При добавлении новой переменной теряется одна степень свободы.

3. Зависимые переменные не должны быть коррелированы, так как при добавлении новой переменной степень свободы теряется, а коррелированные зависимые переменные означают, что нет большого преимущества от включения в тест более одной зависимой переменной.

Спасибо, что прочитали! Надеюсь, этот пост помог вам понять, как работает ANOVA.

LinkedIn:www.linkedin.com/in/preritgupta7