Эксперимент AB-Testing, взломанный г-ном Вольфом, обманувшим всю команду специалистов по анализу данных

Давайте разберемся в p-value и p-hacking из интересного случая, который случился со мной в прошлом.
Стажер, который работал со мной когда-то раньше. Назовем его мистером Вольфом Гуптой (личность скрыта).

Что плохого сделал мистер Вольф?

Мистер Вольф провел эксперимент. Обманывал меня, команду и руководство. 🦊

Над чем работал мистер Вольф?

Г-н Вольф работал над моделью анализа данных механизма рекомендаций и, чтобы доказать, что это улучшение, a-b протестировал с существующей версией работающей модели с равным количеством пользователей.

После нескольких (n = 30 дней) дней проведения эксперимента г-н Вольф увидел улучшение CTR на 12% (по совокупным числам) в своей новой модели по сравнению со старой версией.

Господин Вольф радовался и праздновал !!! 🎊 🎉

Проверка гипотез: двустороннее Т-тестирование

Я попросил г-на Вольфа доказать, что это не случайное событие, пожалуйста, выполните двусторонний t-тест для суточных распределений CTR для обеих версий модели.

Он обнаружил p-значение ›0,05, то есть не смог отклонить нулевую гипотезу, что означает, что обе модели одинаковы.

Мистер Вольф был шокирован 😱 увидев результаты, держал это в секрете 🙊.

Г-н Вольф наивен и все еще считает, что его модель лучше, просто наблюдая за улучшением CTR. Он подумал, что есть некоторая проблема с методом проверки гипотез.

Молились Богу 🙏 и несколько раз проверяли гипотезы на одних и тех же дистрибутивах. p-значение продолжало меняться, но все еще ›0,05; Он продолжал молиться, а потом ...

Наконец, он нашел p-значение <0,05 🙌, что означает, что гипотеза о нуле отклонена, что означает, что модели разные.

Он обрадовался и отпраздновал, сделал снимки экрана с результатами испытаний и поделился с командой, что его новая модель - лучшая. 😎🏆

Все кричали "Значительное Уху !!" Отметили победу в эксперименте с показателем CTR 12% 🎊 🎉

ПОДОЖДИТЕ, но мистер Вольф p-взломал 💣 эксперимент 😂 (который я узнал от него после более крупного выпуска фазы и анализа показателей).

Никогда не уподобляйтесь мистеру Вольфу, если бы кто-нибудь спросил его Значение силы (вероятность правильного отклонения нулевой гипотезы), он бы попал в беду.

Это нормально, если ваш эксперимент / модель потерпели неудачу. Неудача - это ступенька к лучшей версии модели. Неудача в эксперименте также дает взамен обучение. 😊

«Не смущайтесь своими неудачами, извлеките уроки из них и начните заново». - Ричард Брэнсон

Надеюсь, вы узнали что-то новое из этого блога. Если вам понравилось, нажмите 👏 и поделитесь этой статьей. Следите за новостями!

Подключайтесь, подписывайтесь на меня или поддерживайте меня в LinkedIn, если вы нашли это чтение полезным.

Шаурья Уппал - специалист по данным | LinkedIn
Я специалист по данным, который делится интересным изучением науки о данных… www.linkedin.com