Часть I. Надежные контролируемые онлайн-эксперименты — «A/B-тестирование»

Для End to End Experiment и базового введения в A/B-тестирование, пожалуйста, обратитесь к моей предыдущей статье.

В этой статье я расскажу о законе Тваймана и платформе экспериментов.

Закон Тваймена:

Чем необычнее или интереснее данные, тем более вероятно, что они были результатом ошибки того или иного рода.

Любая фигура, которая выглядит интересной или необычной, обычно неверна.

Любая статистика, которая кажется интересной, почти наверняка является ошибкой.

Так что же на самом деле представляет собой закон Тваймана? Проще говоря, Всякий раз, когда мы видим какие-либо экстремальные/интересные/необычные результаты, это может быть связано с ошибкой приборов, потерей данных (или дублированием данных) или вычислительной ошибкой.

Примеры :

Неверная интерпретация статистических результатов —

Недостаток статистической мощности. Важно определить, что является практически значимым в эксперименте, и убедиться, что у нас достаточно мощности, чтобы обнаружить изменение такой величины или меньше. Наиболее распространенная ошибка заключается в том, что мы предполагаем, что нет никакой разницы между контролем и лечением, и отклоняем нулевую гипотезу, когда данные показывают убедительные доказательства против нее, не понимая первопричины — может быть, эксперимент недостаточно мощен для определения размера эффекта, т. е. у нас нет достаточное количество пользователей в тесте.

Неправильное толкование p-значений. Пожалуйста, обратитесь к моей предыдущей статье, чтобы узнать больше о p-значении. Часто люди неправильно интерпретируют p-значения, например, если мы получаем p-значение > 0,5, что означает отсутствие различий между группами. когда КИ включает ноль. Это может быть связано с тем, что наш эксперимент недостаточно мощный.

Просмотр p-значений. Непрерывный мониторинг p-значений может привести к значительной систематической ошибке при объявлении результатов. Альтернативой может быть использование последовательных тестов с всегда допустимыми p-значениями или байесовской системы тестирования. Другой подход заключается в использовании заранее определенной продолжительности эксперимента, например недели, для определения статистической значимости.

Множественные проверки гипотез. Когда есть несколько тестов и мы выбираем тест с наименьшим p-значением, наши оценки p-значения и размера эффекта, вероятно, будут смещены. Частота ложных открытий является ключевой концепцией для работы с несколькими тестами (подробнее об этом мы поговорим в следующей статье).

Доверительный интервал:

а. Распространенной ошибкой является рассмотрение ДИ отдельно для контрольной и экспериментальной групп и предположение, что если они перекрываются, то результат не является статистически значимым. Однако это неверно, доверительные интервалы могут перекрываться на целых 29%, и все же дельта будет статистически значимой. Однако, наоборот, верно обратное: если 95% ДИ не перекрываются, то результат статистически значим со значением p ‹ 0,5.

б. Еще одно недоверие состоит в том, что 95% CI с вероятностью 95% сдерживает истинный эффект. Однако для конкретного КИ истинный лечебный эффект составляет либо 100 %, либо 0 %. Таким образом, 95% ДИ означает, как часто 95% ДИ, рассчитанный на основе многих исследований, содержит истинный эффект лечения. (обсудим об этом в следующих следующих статьях)

Угрозы внутренней валидности: некоторые распространенные угрозы правильности экспериментальных результатов без попытки обобщения на другие группы населения или периоды времени:

Нарушения SUTVA (предположение о стабильном значении обработки единицы) – в нем говорится, что единицы эксперимента (например, пользователь) не мешают друг другу. На их поведение влияет их собственное назначение вариантов, а не назначение других. Но это предположение нарушается во многих случаях, таких как — Социальные сети — где функция может распространяться на сеть пользователя, Skype, инструменты для создания документов(бывший офис Microsoft и т. д.) при соавторской поддержке, две сторонние торговые площадки, такие как lyft, eBay, Airbnb, могут нарушать SUTVA через другую сторону, поскольку снижение цен на лечение может повлиять на контроль во время аукционов , любые общие ресурсы, такие как (хранилище, ЦП и т. д.) из-за утечки памяти или сборки мусора, сбоя компьютера и т. д.

Погрешность выживаемости: это просто означает анализ экспериментальной единицы (пользователей), которые были активны в течение некоторого времени или, другими словами, которые выжили в течение определенного периода времени, например два месяца, вносят погрешность.

Намерение лечить. Анализ намерения лечить — это метод анализа результатов в проспективном рандомизированном исследовании, при котором все рандомизированные участники включаются в статистический анализ и проанализированы в соответствии с группой, к которой они изначально были отнесены, независимо от того, какое лечение (если оно проводилось) они получали. Например — мы предлагаем возможность оптимизировать рекламную кампанию, но в ней участвовало всего несколько рекламодателей, если мы будем анализировать только тех, кто участвовал, это может привести к смещению отбора.

SRM (несоответствие соотношения выборки). Это означает, что существует несоответствие между наблюдаемым соотношением выборки и ожидаемым соотношением выборки. Например, наша единица рандомизации использует пользователей, и пользователи не разделены в соотношении 50–50 между различными вариантами, такими как лечение и контроль, так что их соотношение не равно 1, тогда мы называем это SRM. Этому несоответствию может быть несколько причин, например —

а. Перенаправления браузера — перенаправления браузера могут привести к различиям в производительности, что может оказать существенное влияние на ключевые показатели.

б. Инструментарий с потерями — отслеживание кликов обычно выполняется с использованием веб-маяков, которые, как известно, работают с потерями. Обычно это не считается проблемой, так как влияет как на лечение, так и на контроль, но иногда лечение может повлиять на потерю крысы, заставляя пользователей с низкой активностью появляться с другой скоростью и вызывать SRM (несоответствие отношения выборки).

в. Остаточные или переносные эффекты. Если эксперимент прерывается или продолжается из-за каких-то проблем, а позже ошибка исправлена, она может оставить свое влияние в будущем. вы можете потерять своих пользователей и т. д., или когда эксперимент будет перезапущен, это может привести к значительному эффекту переноса предыдущего эксперимента, вызвавшего SRM. Поэтому важно проводить A/A-тесты и активно повторно рандомизировать пользователей.

д. Плохая хэш-функция для рандомизации. Существуют определенные хеш-функции, которые не могут правильно распределить пользователей в нескольких параллельных экспериментах, когда система была обобщена для перекрывающихся экспериментов.

е. Запуск под влиянием обработки — если запуск выполняется на основе атрибутов, которые меняются с течением времени, это может вызвать SRM.

ф. Эффекты времени суток. Время суток оказывает серьезное влияние и может вызвать SRM. Например, если вы отправили электронное письмо контрольной группе в рабочее время и экспериментальной группе в нерабочее время. Это может вызвать SRM, поскольку все больше людей просматривают эти электронные письма в рабочее время.

г. На конвейер данных влияет обработка — иногда причиной SRM могут быть боты в вашей пользовательской базе. вы можете не увидеть достаточного вовлечения пользователей, но как только вы удалите этих ботов из своей воронки, вы можете заметить всплеск вовлеченности пользователей.

Угрозы внешней достоверности. Прежде чем разбираться с угрозами, давайте разберемся, что такое внешняя достоверность —

Внешняя валидность относится к степени, в которой результаты контролируемого эксперимента могут быть обобщены во времени.

Эффекты приоритета. Иногда пользователям может потребоваться некоторое время, чтобы адаптировать изменение. Весь этот процесс может занять некоторое время.
Эффекты новизны — это неустойчивый эффект, означающий, что в некоторых случаях новая функция может сначала привлечь пользователей, чтобы попробовать их, но со временем они могут счесть ее бесполезной, и ее использование сократится. Таким образом, вначале может показаться, что лечение хорошо работает, но со временем эффект быстро снижается.

Важным способом проверки обоих вышеупомянутых эффектов является построение графика использования с течением времени и определение его увеличения или уменьшения.

Сегментные различия —

Мудрый анализ метрического сегмента может предоставить нам много полезной информации. Но перед этим нам нужно определить сегменты, так что же может быть хорошим сегментом?

Пример -

Рынок или страна
Устройство или платформа
Время суток и день недели
Тип пользователя
Характеристики учетной записи пользователя

Парадокс Симпсона —

В соответствии с парадоксом Симпсона лечение может быть лучше, чем контроль в первой и второй фазах, но в целом хуже, когда эти два периода объединены.

Например -

Выборка пользователей осуществляется неравномерно. пользователи в некоторых браузерах отбираются с более высокой частотой. вы можете увидеть, что общий эффект обработки лучше, но если вы сегментируете его по типам браузеров, обработка будет хуже для всех типов браузеров.
Веб-сайт был обновлен в центре обработки данных 1, и удовлетворенность клиентов повысилась, то же самое произошло с центром обработки данных 2, и вы видите улучшение удовлетворенности клиентов, но общая удовлетворенность клиентов снижается, если вы посмотрите на объединенные данные.

Надеюсь, вам понравилась эта статья. Подробное объяснение см. в книге. Для следующей главы, пожалуйста, прочитайте мою следующую статью.

Часть I. Надежные контролируемые онлайн-эксперименты — «A/B-тестирование» — «Закон Тваймена»

Вопросы по теме