Даже после кризиса репликации статистическая значимость остается важной концепцией для понимания специалистами по данным.

Существует много типов статистических тестов - преобладает проверка значимости нулевой гипотезы.

Цель этого метода - проверить наблюдение на соответствие нулевой гипотезе. Вы можете думать о нулевой гипотезе как о статус-кво. Он представляет собой ситуацию, когда вмешательство не работает.

Тестирование значимости стало преобладающим, потому что это полезный способ сделать вывод на основе подмножества данных, взятых из более широкой совокупности. Эта статья расширит вашу интуицию об этой полезной технике науки о данных.

Обзор

Цель исследователя, проводящего проверку нулевой гипотезы, - оценить, можно ли отклонить нулевую гипотезу. Для этого требуется порог вероятности, называемый уровнем значимости или альфа (⍺). Это значение, обычно равное 0,05, представляет уровень доказательств, необходимый для отклонения нулевой гипотезы о том, что вмешательство не имеет эффекта.

Уровень значимости 0,05 означает, что если мы запустим тест 100 раз, мы можем ожидать, что неверно отклоним нулевую гипотезу в 5 раз из 100. Другими словами, в 5% случаев мы неверно сообщаем что вмешательство оказывает влияние, когда фактического эффекта нет.

Чтобы сделать тест более строгим, исследователь просто уменьшит альфа со стандартного 0,05 до значения 0,01 или ниже. Разные научные дисциплины имеют разные стандарты настройки альфы. В физике элементарных частиц, где измерения очень точны, альфа может быть установлена ​​на 0,000001. В социальных науках, напротив, приемлемым считается значение альфа 0,05.

Отвергая нулевую гипотезу

В результате проверки гипотез вычисляется p-значение. Прежде чем я определю этот термин, посмотрите это видео, в котором статистики пытаются это сделать:



С возвращением, страстный путешественник в причудливую страну, открытую Нейтом Сильвером и командой. Вы все еще хотите дать определение p-значения?

В порядке прекрасно:

Вероятность получения результатов, по крайней мере, столь же, как наблюдаемые, при условии, что нулевая гипотеза верна.

В качестве дополнительного объяснения исследователя Стюарта Бака:

Значение p не скажет вам, честна ли монета, но покажет вероятность того, что вы получите не меньше орлов, чем если бы монета была честной.

Имея в виду эти технические и функциональные определения, давайте перейдем к пониманию того, как значение p используется в тестировании значимости.

Значение p меньше или равно альфа указывает на то, что мы можем отклонить нулевую гипотезу и сказать, что результат статистически значимый. В этом случае доказательства говорят в пользу альтернативной гипотезы, хотя мы никогда не скажем, что принимаем альтернативную гипотезу ️️⛔️

Неа. Благодаря статистике мы застряли с неуклюжим двойным отрицанием: мы отвергаем нулевую гипотезу

На самом деле это очень важно, потому что в науке практически невозможно доказать эффективность вмешательства. Вспомните своего учителя естественных наук в третьем классе, который объяснил, что гравитация - это всего лишь теория: сколько бы раз вы ни свалили книги со стола, вы не сможете окончательно доказать альтернативную гипотезу о том, что гравитация работает и будет всегда заставляйте ваши книги падать.

Когда мы выполняем проверку значимости нулевой гипотезы, есть две потенциальные ошибки, которые мы можем сделать при оценке нулевой гипотезы. Если нулевая гипотеза ошибочно отвергнута (т. Е. Мы думаем, что вакцина эффективна, хотя на самом деле это не так), мы совершаем ошибку типа 1 - ложное срабатывание. И наоборот, если нам не удается отвергнуть нулевую гипотезу, хотя на самом деле мы должны (т.е. мы думаем, что вакцина неэффективна, хотя на самом деле это так), мы совершаем ошибку типа 2. - ложноотрицательный.

Крис Албон создал удобную иллюстрацию, чтобы помочь нам отличить:

Словарь для тестирования значимости

  • Гипотеза: утверждение, которое можно проверить на основе наблюдаемых данных.
  • Нулевая гипотеза: гипотеза по умолчанию о том, что измеряемый эффект равен нулю.
  • Уровень значимости (⍺): порог, установленный исследователем, который представляет вероятность отклонения нулевой гипотезы, если она верна.
  • p-значение: вероятность в соответствии с указанной статистической моделью того, что статистическая сводка данных (например, разница средних значений выборки между двумя сравниваемыми группами) будет равна или более экстремальна, чем ее наблюдаемое значение; если p ≤ ⍺, мы можем отклонить нулевую гипотезу и сказать, что результаты статистически значимы.
  • Альтернативная гипотеза: противоположность нулевой гипотезе.
  • Ошибка типа 1: отклонение нулевой гипотезы, когда она действительно верна; также называется ложным срабатыванием
  • Ошибка типа 2: неспособность отклонить нулевую гипотезу, когда она фактически ложна; также ложноотрицательный

Предупреждение о тестировании значимости

Обратите внимание, что методология проверки значимости нулевой гипотезы подверглась критике по ряду причин:

🔥 Во-первых, p-значения, как известно, трудно объяснить. Сложно основывать фундаментальные концепции научного метода на концепциях, которые эксперты пытаются сформулировать, а широкие массы не могут понять.

🔥 Во-вторых, как упоминалось в описании этого поста, p-ценности сыграли роль в кризисе репликации, который потряс социальные науки в середине 2010-х годов. Термин p-hacking относится к практике манипулирования данными или анализа до тех пор, пока p-значение не будет соответствовать требуемому уровню ниже альфа для статистической значимости. Проект воспроизводимости, детище психолога Брайана Носека, показал, что только 36% из 100 оцененных психологических результатов дали статистически значимые результаты при воспроизведении.

🔥 В-третьих, существуют хорошие альтернативы проверке значимости нулевой гипотезы, в том числе: размер эффекта, доверительные интервалы и проверка точных результатов (SPOT ) .



Резюме

В заключение приведу цитату Энни Дьюк, чемпиона по покеру и автора книги Thinking in Bets:

Несмотря на распространенное мнение о том, что мы добиваемся успеха с помощью позитивной визуализации, оказывается, что включение негативной визуализации увеличивает наши шансы на достижение наших целей.

В жизни, как и в науке о данных, полезно исходить из предположения, что наша модель не будет работать, наше вмешательство не окажет никакого эффекта, статус-кво не будет нарушен новыми событиями.

Проверка значимости нулевой гипотезы начинается с этой предпосылки и ставит перед исследователем задачу найти достаточные доказательства, чтобы отвергнуть существующее положение вещей. Хотя тестирование значимости в большинстве своем ненавидят, оно по-прежнему является полезной методологией для понимания специалистами по данным.

Больше статей для развития вашей науки о данных