Netflix A / B-тестирование
(иначе, почему проведение идеального рандомизированного контролируемого эксперимента может быть несбыточной мечтой)
Меня сильно вдохновила статья Технологического блога Netflix о том, как они проводят A / B-тесты для эскизов фильмов / сериалов - настраивая эскизы в соответствии с демографическими данными / предпочтениями пользователя, чтобы повысить их вероятность. смотрю шоу.
В нем очень подробно рассматривается план эксперимента, но одно из самых интересных открытий было связано с Sense 8. Их выводы пришли к выводу, что американская аудитория любит смотреть на относительно простые изображения (верхнее правое изображение, с одним персонажем прямо в центре и с название), тогда как публика в Германии любит смотреть на абстрактные изображения (верхнее левое изображение)
Это вдохновило меня найти ответы на вопрос, который всегда озадачивал меня как «международного» зрителя, который в основном смотрел американские шоу:
Влияет ли расовое разнообразие в контенте на предпочтения просмотра? Как индиец, могу ли я с большей вероятностью смотреть фильм, если на его значке изображен индийский персонаж?
Это стало идеальной идеей заключительного проекта для нашей команды, участвовавшей в курсе «Причинный вывод» в программе MS in Analytics Университета Миннесоты. Пиюш Гупта, Пушкар Венгурлекар, Оливия Лян, Вибхав Пратап Сингх и я отправились в экспедицию несбыточной мечты по проведению идеального рандомизированного эксперимента.
Дизайн эксперимента
Мы хотели измерить "интересность"
Группа обработки: эскизы фильмов / сериалов, в которых представлен представитель их расы.
Группа управления: миниатюра фильма / сериала без присутствия в нем кого-либо из представителей их расы.
Люди умеют судить о чем-то относительно, а не абсолютно.
Это было путеводной звездой, когда мы разрабатывали опрос для получателей. Мы не хотели, чтобы они ставили произвольное число от 1 до 10, чтобы сказать, насколько интересным, по их мнению, был фильм. Итак, мы показали им 5 фильмов, в которых одно встроенное изображение было тестируемым индийским / азиатским изображением, и попросили людей оценить изображения.
Так что, если бы группа лечения оценила фильмы с лучшим расовым представлением выше, моя гипотеза была бы верной!
Так возник вопрос:
Расположите фильмы в порядке их интереса
Как справляться с ошибками
Здесь начинается беспорядок. В отличие от такой компании, как Netflix, у которой есть обширная информация о каждом из своих пользователей, у нас практически не было никакой информации. Поэтому мы хотели представить изображения фильмов / шоу, которые выглядели сравнительно похожими друг на друга и были относительно менее известны людям. Если бы респонденты имели представление о шоу, это могло бы исказить результаты.
И, в отличие от Netflix, у нас не было команды UX, которая работала с нами над созданием небольших приращений изменений с помощью эскизов, чтобы изолировать эффект только от изменений. Следовательно, это были проблемы, которые мы должны были признать и решить при разработке нашего эксперимента.
Анализ мощности / какое минимальное количество людей нам нужно опросить?
Мощность определяется как вероятность не обнаруживать эффект в эксперименте, когда действительно есть эффект (например, 1 - ошибка типа 2).
Мы хотели, чтобы наш эксперимент был достаточно чувствительным, чтобы уловить разницу между группами. Насколько чувствительны? Наше лучшее предположение заключалось в том, что разница в рейтинге между двумя группами для тестируемого изображения должна составлять не менее 0,2.
Чтобы измерить 0,1 разность рангов с достоверностью 90% и мощностью 80%, нам нужно было собрать ~ 600 образцов. Проблема в том, что в нашем классе было около 100 учеников.
Исправление: задайте этим 100 учащимся по 6 вопросов!
Люди шумные ™
Это касается «рандомизированной» части рандомизированного контролируемого эксперимента. Нам нужно было иметь группу лечения и контроля, которая была полностью сформирована из случайного распределения - без предвзятости по полу, расе, возрасту и другим параметрам.
«Другие параметры» - это шум, о котором я говорю. Люди такие разные, особенно в таком университете, как Университет Миннесоты - так много разных мест, с таким разным жизненным опытом. Мы решили опросить только наших сокурсников по программе MS Analytics, потому что мы полагали, что это внесет элемент однородности в наши группы. Но компромисс заключался в том, что мы не смогли бы обобщить наши представления о мире.
Блочная рандомизация - это подход, который мы использовали для поиска наших групп - рандомизированных по каждому фактору - полу, расе и возрасту.
Результаты
Ах сладкий запах разочарования
Мы не смогли измерить какие-либо различия между двумя группами после выполнения t-теста. Фактически, мы видели, что люди оценивали фильмы с меньшим расовым разнообразием ниже, чем контрольные версии. Это было совершенно непонятно, поскольку все мы ожидали, что лечебный эффект существует.
Правильно ли мы измеряем KPI?
Я начал задаваться вопросом, а могут ли люди по-прежнему произвольно ранжировать фильмы. Поговорив с некоторыми из получателей, я понял, что они столкнулись с трудностями при присвоении рейтинга фильмам без какой-либо информации, кроме изображений.
Так что, возможно, люди не могут присвоить рейтинг от 1 до 5, но они могут решить, хотят ли они переместить значок вверх в рейтинге или нет?
Мы решили взглянуть на каждую из групп индивидуально и понять, сдвинули ли они изображение вверх или нет, очень хорошо зная, что это сильно ослабит наш эксперимент, а это означает, что мы не сможем подтвердить наши результаты какой-либо статистической значимостью.
Тем не менее результаты были удивительными.
Помимо предвзятости подтверждения, индейцы из моей команды полностью согласились с результатами, что они не сочли бы фильмы с индийскими персонажами более интересными.
Тем не менее, все, что мы могли сделать статистически, это то, что нам нужно собрать больше образцов, чтобы быть уверенными в направлении этих результатов, т. Е. возьмите его с миской соли p̶i̶n̶c̶h̶.
Итак, как бы мы могли улучшить эксперимент, сделав еще один шанс?
- Устранение искажений и искажений в изображениях: здесь нужно контролировать множество факторов - освещение изображения, количество людей и так далее. Лучше всего было бы работать с командой UX и разрабатывать небольшие приращения изменений, которые мы можем надежно измерить.
- Усталые респонденты. Попросить 100 человек оценить 5 фильмов по шесть раз каждый - непростая задача. Люди достаточно устали. Лучшим решением для этого было бы увеличение числа респондентов. Бонусные баллы: мы можем лучше обобщать реальный мир.
3. Дизайн опроса. Для проведения опроса мы использовали Qualtrics, но в мобильной версии возникло множество проблем с интерфейсом ранжирования.
Проблема в том, что люди могут не ранжировать наше тестовое изображение выше, потому что им просто трудно сделать это в интерфейсе?
Команда: Судхаршан Ашок, Пиюш Гупта, Пушкар Венгурлекар, Вибхав Пратап Сингх, Оливия Лян