Почему вы должны выбирать свои гипотезы ДО того, как изучать данные

Сидя на уроке статистики, мой профессор часто повторял, насколько важно решить гипотезы, которые нужно проверить, прежде чем смотреть на данные. Он высмеивал идею интеллектуального анализа данных и заявлял, что любой, кто формулирует свои гипотезы после просмотра данных, обречен на провал.

Он никогда не говорил почему.

Я видел похожие мысли, отраженные в руководящих принципах по разработке медицинских испытаний: перед началом рандомизированного контрольного испытания для проверки эффективности лекарственного средства очень важно заранее сформулировать гипотезы, которые вы ожидаете.

Я довольно долго задавался вопросом о причине этого, и недавно, выяснив это, я подумал, что поделюсь почему на примере.

Представьте, что у нас есть такая переменная, как высота. Распространяется нормально. Мы отбираем 3 человек из популяции, измеряем их рост и берем среднее значение. Назовем это X1. Мы выбираем 3 разных людей из ОДНОЙ популяции, усредняем их рост и называем это X2.

Теперь представьте, что мы провели двусторонний t-тест, оценивая, если X1 = X2 с альфа = 0,05. Нулевая гипотеза:

и альтернативная гипотеза

Поскольку 2 средних получены из одной и той же совокупности, мы ожидаем, что p> 0,05 и что мы не сможем отклонить нуль. Однако всегда существует редкая вероятность того, что одна группа будет отобрана исключительно из одного хвоста распределения, в то время как другая - из другого хвоста, и разница между X1 и X2 неожиданно велика. В таких случаях мы ошибочно отвергнем нулевую гипотезу, и, исходя из нашей альфы, вероятность этого составляет 5%.

Мы можем проверить это с помощью моделирования, когда мы многократно отбираем 2 группы по 3 человека из одного и того же нормального распределения и применяем t-тест к их средним значениям. Мы делаем это 100000 раз и строим гистограмму p-значений ниже. Как и ожидалось, мы получаем равномерное распределение, и около 5% значений p находятся в диапазоне от 0 до 5%. Это ложные срабатывания и важный момент, на котором стоит остановиться.

Несмотря на то, что эти группы происходили из одного и того же распределения, если бы мы не знали этого и просто смотрели на средства, есть вероятность 5%, мы бы неправильно заключили, что они происходят из разных распределений.

Эта частота ошибок присуща статистике, и мы допускаем, что наш вывод об отклонении нулевой гипотезы с вероятностью 5% неверен. Пока мы уверены, что это 5% и остается 5%, мы в порядке.

Но теперь давайте посмотрим, что происходит, когда мы меняем гипотезы после просмотра данных.

Мы моделируем это, снова рисуя 2 группы по 3 человека из данных. Мы сортируем каждую группу по высоте, и если средний член 1-й группы выше самого высокого члена 2-й группы, мы меняем наши гипотезы на:

Обратите внимание, что это односторонняя гипотеза, и с ее помощью может быть проще получить значимые результаты. Если средний член одной группы не выше всех в другой группе, мы, как обычно, используем вышеупомянутую двустороннюю гипотезу. Этот процесс воспроизводит поведение исследователя, который намеревается использовать двустороннюю гипотезу, но после анализа данных понимает, что у него больше шансов получить значимые результаты, используя одностороннюю гипотезу.

Выполнив еще одну симуляцию из 100000 выборок, мы получим гистограмму ниже. Обратите внимание на то, что произошло с количеством значений p, попадающих в диапазон 0–5%. Он резко увеличился.

Обращение к данным и изменение наших гипотез повысило вероятность отклонения нулевой гипотезы, хотя мы не должны этого делать. И хуже всего то, что мы даже не осознаем, что это происходит. Мы можем получить гораздо более «значимые» результаты, но все они могут быть ложноположительными.

В медицине и клинических исследованиях мы хотим любой ценой избежать неверных заявлений об эффективности препарата. Представьте себе вред и расходы, связанные с употреблением миллионов людей лекарств, которые мы ошибочно полагаем работающими, потому что исследователь изменил свои гипотезы после просмотра данных и ошибочно отверг нулевое значение.

Это была бы катастрофа.

Вот почему вам, вероятно, не следует менять свои гипотезы после просмотра данных.

Сообщите мне свои мысли и если у вас возникнут какие-либо вопросы, в комментариях ниже.

Почему вы должны выбирать свои гипотезы ДО того, как изучать данные

Вопросы по теме