Netflix A / B-тестирование

(иначе, почему проведение идеального рандомизированного контролируемого эксперимента может быть несбыточной мечтой)

Меня сильно вдохновила статья Технологического блога Netflix о том, как они проводят A / B-тесты для эскизов фильмов / сериалов - настраивая эскизы в соответствии с демографическими данными / предпочтениями пользователя, чтобы повысить их вероятность. смотрю шоу.

В нем очень подробно рассматривается план эксперимента, но одно из самых интересных открытий было связано с Sense 8. Их выводы пришли к выводу, что американская аудитория любит смотреть на относительно простые изображения (верхнее правое изображение, с одним персонажем прямо в центре и с название), тогда как публика в Германии любит смотреть на абстрактные изображения (верхнее левое изображение)

Это вдохновило меня найти ответы на вопрос, который всегда озадачивал меня как «международного» зрителя, который в основном смотрел американские шоу:

Влияет ли расовое разнообразие в контенте на предпочтения просмотра? Как индиец, могу ли я с большей вероятностью смотреть фильм, если на его значке изображен индийский персонаж?

Это стало идеальной идеей заключительного проекта для нашей команды, участвовавшей в курсе «Причинный вывод» в программе MS in Analytics Университета Миннесоты. Пиюш Гупта, Пушкар Венгурлекар, Оливия Лян, Вибхав Пратап Сингх и я отправились в экспедицию несбыточной мечты по проведению идеального рандомизированного эксперимента.

Дизайн эксперимента

Мы хотели измерить "интересность"

Группа обработки: эскизы фильмов / сериалов, в которых представлен представитель их расы.

Группа управления: миниатюра фильма / сериала без присутствия в нем кого-либо из представителей их расы.

Люди умеют судить о чем-то относительно, а не абсолютно.

Это было путеводной звездой, когда мы разрабатывали опрос для получателей. Мы не хотели, чтобы они ставили произвольное число от 1 до 10, чтобы сказать, насколько интересным, по их мнению, был фильм. Итак, мы показали им 5 фильмов, в которых одно встроенное изображение было тестируемым индийским / азиатским изображением, и попросили людей оценить изображения.

Так что, если бы группа лечения оценила фильмы с лучшим расовым представлением выше, моя гипотеза была бы верной!

Так возник вопрос:

Расположите фильмы в порядке их интереса

Как справляться с ошибками

Здесь начинается беспорядок. В отличие от такой компании, как Netflix, у которой есть обширная информация о каждом из своих пользователей, у нас практически не было никакой информации. Поэтому мы хотели представить изображения фильмов / шоу, которые выглядели сравнительно похожими друг на друга и были относительно менее известны людям. Если бы респонденты имели представление о шоу, это могло бы исказить результаты.

И, в отличие от Netflix, у нас не было команды UX, которая работала с нами над созданием небольших приращений изменений с помощью эскизов, чтобы изолировать эффект только от изменений. Следовательно, это были проблемы, которые мы должны были признать и решить при разработке нашего эксперимента.

Анализ мощности / какое минимальное количество людей нам нужно опросить?

Мощность определяется как вероятность не обнаруживать эффект в эксперименте, когда действительно есть эффект (например, 1 - ошибка типа 2).

Мы хотели, чтобы наш эксперимент был достаточно чувствительным, чтобы уловить разницу между группами. Насколько чувствительны? Наше лучшее предположение заключалось в том, что разница в рейтинге между двумя группами для тестируемого изображения должна составлять не менее 0,2.

Чтобы измерить 0,1 разность рангов с достоверностью 90% и мощностью 80%, нам нужно было собрать ~ 600 образцов. Проблема в том, что в нашем классе было около 100 учеников.

Исправление: задайте этим 100 учащимся по 6 вопросов!

Люди шумные ™

Это касается «рандомизированной» части рандомизированного контролируемого эксперимента. Нам нужно было иметь группу лечения и контроля, которая была полностью сформирована из случайного распределения - без предвзятости по полу, расе, возрасту и другим параметрам.

«Другие параметры» - это шум, о котором я говорю. Люди такие разные, особенно в таком университете, как Университет Миннесоты - так много разных мест, с таким разным жизненным опытом. Мы решили опросить только наших сокурсников по программе MS Analytics, потому что мы полагали, что это внесет элемент однородности в наши группы. Но компромисс заключался в том, что мы не смогли бы обобщить наши представления о мире.

Блочная рандомизация - это подход, который мы использовали для поиска наших групп - рандомизированных по каждому фактору - полу, расе и возрасту.

Результаты

Ах сладкий запах разочарования

Мы не смогли измерить какие-либо различия между двумя группами после выполнения t-теста. Фактически, мы видели, что люди оценивали фильмы с меньшим расовым разнообразием ниже, чем контрольные версии. Это было совершенно непонятно, поскольку все мы ожидали, что лечебный эффект существует.

Правильно ли мы измеряем KPI?

Я начал задаваться вопросом, а могут ли люди по-прежнему произвольно ранжировать фильмы. Поговорив с некоторыми из получателей, я понял, что они столкнулись с трудностями при присвоении рейтинга фильмам без какой-либо информации, кроме изображений.

Так что, возможно, люди не могут присвоить рейтинг от 1 до 5, но они могут решить, хотят ли они переместить значок вверх в рейтинге или нет?

Мы решили взглянуть на каждую из групп индивидуально и понять, сдвинули ли они изображение вверх или нет, очень хорошо зная, что это сильно ослабит наш эксперимент, а это означает, что мы не сможем подтвердить наши результаты какой-либо статистической значимостью.

Тем не менее результаты были удивительными.

Помимо предвзятости подтверждения, индейцы из моей команды полностью согласились с результатами, что они не сочли бы фильмы с индийскими персонажами более интересными.

Тем не менее, все, что мы могли сделать статистически, это то, что нам нужно собрать больше образцов, чтобы быть уверенными в направлении этих результатов, т. Е. возьмите его с миской соли p̶i̶n̶c̶h̶.

Итак, как бы мы могли улучшить эксперимент, сделав еще один шанс?

Устранение искажений и искажений в изображениях: здесь нужно контролировать множество факторов - освещение изображения, количество людей и так далее. Лучше всего было бы работать с командой UX и разрабатывать небольшие приращения изменений, которые мы можем надежно измерить.
Усталые респонденты. Попросить 100 человек оценить 5 фильмов по шесть раз каждый - непростая задача. Люди достаточно устали. Лучшим решением для этого было бы увеличение числа респондентов. Бонусные баллы: мы можем лучше обобщать реальный мир.

3. Дизайн опроса. Для проведения опроса мы использовали Qualtrics, но в мобильной версии возникло множество проблем с интерфейсом ранжирования.

Проблема в том, что люди могут не ранжировать наше тестовое изображение выше, потому что им просто трудно сделать это в интерфейсе?

Команда: Судхаршан Ашок, Пиюш Гупта, Пушкар Венгурлекар, Вибхав Пратап Сингх, Оливия Лян

Netflix A / B-тестирование