Прибыль или информация?

Компромисс экспериментирования с машинным обучением: фреймворк

Если вы - компания, вы постоянно ищете способ получить больше прибыли. Если компания стремится расширить или изменить свой текущий бизнес (как в большом, так и в маленьком), наиболее распространенным решением является экспериментирование.

Компании могут экспериментировать, работает ли изменение или нет; если изменение кажется многообещающим, они могут включить это изменение в свой бизнес. Эксперименты - это движущая сила инноваций и роста, особенно в цифровых компаниях.

Распространенным и относительно простым тестом является A / B-тест. Половина пользователей случайным образом направляется к макету A, а другая половина - к макету B. Затем, после завершения эксперимента, можно сравнить результаты пользователей в макете A и B, чтобы увидеть, какой макет работает лучше.

Выбирая A / B-тест, вы выбираете информацию в экспериментальном поиске компромисса между информацией и прибылью. То есть A / B-тест - это самый коренной из существующих методов тестирования; Идея тестирования контрольных и лечебных групп настолько фундаментальна для науки, насколько это вообще возможно. С тестами A / B статистическая значимость является наиболее достоверной и точной.

(Технически информация - это прибыль, просто отложенная и менее конкретная в определенном смысле, но не обязательно менее ценная. Однако пока стоит сохранить информацию или компромисс прибыли.)

Однако эксперименты не проводятся в какой-то далекой-далекой неактуальной галактике - эксперимент затрагивает реальных клиентов. Если вы - компания, особенно у которой мало ресурсов, которые нужно тратить, вам нужно свести к минимуму потери - все время, в том числе во время экспериментов.

Так, например, если новый макет веб-сайта успешен только на 25%, а исходный макет веб-сайта успешен на 75%, то при A / B-тесте, а затем во время теста, всего 50% посещений веб-сайта являются успешными по сравнению с 75% изначально. Выполнение теста вредит компании.

(0.5 × 0.25) + (0.5 × 0.75) = 0.5 #success rate in A/B test

Фактически, Harvard Business Review обнаружил, что в Google и Bing только от 10% до 20% экспериментов дают положительные результаты. Принимая во внимание относительно низкие показатели успешности, должны ли компании проводить так много таких высокоинформативных, но также и высокорисковых A / B-тестов?

Тесты Multi Armed Bandit (MAB) позволяют использовать A / B-тесты для решения этой самой проблемы - A / B-тесты могут быть не очень прибыльными. Эти тесты МАБ не статичны в отношении доли населения, включенного в каждую группу.

То есть,

  • A / B-тесты статичны; они всегда будут 50% - 50% в контрольной группе и группе лечения.
  • Изменение тестов МАБ; они могут начинаться с 50% - 50%, но в конце теста пропорция становится 10% - 90%, например, если вторая группа работает лучше.

В этом случае, если мы выберем MAB вместо A / B-тестов, мы окажемся как в выигрыше, так и в проигрыше.

  • Преимущество: прибыль. В тесте MAB, ближе к концу приведенного выше примера теста, мы направили на 40% больше населения в более эффективную группу. Это говорит о том, что на протяжении всего теста MAB «спасла» значительное количество пользователей, которые в противном случае перешли бы в менее эффективную группу.
  • Недостаток: информация. В тесте MAB окончательные результаты не делятся на равные доли, поэтому делать статистически строгие выводы не так просто. Фактически, если экспериментатор хочет быть особенно строгим, в зависимости от обстоятельств он может даже не сделать вывод из эксперимента.
    Например, скажем, вам дано, что во всем эксперименте MAB 30 % участников были в группе A с 40% успешностью, а остальные 70% были в группе B с 33% успеха. Можете ли вы сделать уверенное решение между а) шумом, вызванным 40% разницей между размерами выборки, и б) разницей в уровне успеха всего в 7%?

Полезно сравнивать тесты MAB и A / B в этой структуре информации о прибыли. Используя эту структуру, можно прийти к сложному решению о том, какой тип тестирования использовать более структурированным образом.

Однако во-первых, нужно признать A / B-тесты как подмножество MAB-тестов. Давайте переопределим более строгий (но все же относительно упрощенный) взгляд на тесты MAB с точки зрения исследования / эксплуатации. Рассмотрим некоторое число δ, где

  • Тесты МАБ являются исследовательскими на δ процентов. То есть они случайным образом отправляют пользователей в контрольную группу и группу лечения для сбора дополнительных данных, что делает их более статистически значимыми.
  • Тесты МАБ являются 100-процентными эксплуатационными. То есть они отправляют пользователей в группу, которая, как они знают, будет работать лучше, чтобы максимизировать прибыль.

Итак, A / B-тесты - это MAB-тесты, где δ = 100 процентов - он постоянно исследует и не использует вообще. В этом контексте мы рассматриваем модели MAB как смесь исследования и эксплуатации.

Следует отметить, что воспринимать это слишком буквально - может ввести в заблуждение. Объем исследования и использования модели MAB является динамическим - он меняется - но воспринимайте эту структуру больше как «насколько модель представляет собой смесь чисто исследовательского теста и чисто эксплуатационного теста? ” На самом деле δ представляет собой что-то вроде «насколько уверенной должна быть модель для использования?»

В этом случае, чем выше δ, тем больше статистической достоверности требуется для принятия решения об эксплуатации, а это означает, что будет более нерешительно использовать и тратить время на изучение. С другой стороны, если δ меньше, модель готова к эксплуатации с небольшой уверенностью.

Вернемся к рассматриваемой структуре: мы можем начать настраивать δ, чтобы выбрать между компромиссом между разведкой (статистическая значимость) и эксплуатацией (прибыль).

Давайте рассмотрим пример сценария, в котором совокупность одинакова, но для моделирования используются разные значения δ.

  • При δ = 100, как обсуждалось выше, это A / B-тест. Хотя прибыль даже не рассматривается, собранные данные очень статистически значимы.
  • При δ = 75 модель в основном занимается исследованием, но также и небольшой эксплуатацией. Принимая во внимание, что группы могли составлять 50% - 50% в начале текста, с помощью этого небольшого использования модель медленно обучается до 40% - 60% (вторая группа более успешна).
  • При δ = 50 модель выполняет равные исследования и эксплуатацию. В то время как группы могли составлять 50% - 50% в начале текста, с помощью модели относительно быстро достигает 30% - 70%.
  • При δ = 25 модель в основном занимается исследованием, но также и небольшой эксплуатацией. В то время как группы могли составлять 50–50% в начале текста, при таком большом использовании модель быстро вырастает до 25–75%.
  • При δ = 0 модель выполняет чистую эксплуатацию. В то время как группы могли составлять 50% - 50% в начале текста, с помощью этого небольшого использования модель мгновенно становится 100% - 0%. (Чистая эксплуатационная модель следует вне зависимости от того, какой является первая точка данных, поэтому в этом случае первая собранная точка данных свидетельствует о том, что первая группа преуспела.)

Эти числа, конечно, вымышленные, но они квазиреалистичны, и мы можем провести анализ вымышленных результатов, которые мы получаем из этой структуры.

Как экспериментатор, анализ результатов на основе значения δ делает компромисс немного более ясным. Вы, вероятно, заметите две вещи:

  • Статистическая значимость. Есть ли действительно большая разница в статистически значимых выводах между группой 40–60%, когда δ = 75, и группой 50–50%, когда δ = 100 для практических целей? Проблемы действительно возникают, когда δ = 50, однако, поскольку групповая разница намного больше и может создавать проблемы статистической достоверности и значимости.
  • Прибыль. По иронии судьбы, в определенный момент эксплуатация причиняет нам убытки, поскольку она недостаточно исследовала и эксплуатирует ложные идеи. Например, при δ = 0 наш тест MAB фактически отправляет 100% пользователей не в ту группу. В общем, все, что ниже δ = 50, кажется слишком поспешным, поскольку мы интуитивно хотели бы, чтобы модель тратила столько же времени на изучение, сколько на использование знаний, полученных в результате этого исследования.

Основываясь только на этих двух наблюдениях, наш экспериментатор пришел бы к выводу, что где-то около δ = 75 является лучшей тестовой моделью.

Конечно, эти числа не применимы ко всем сценариям, и есть веские причины выбирать как высокие, так и низкие значения δ.

Например, новостное агентство может отдавать приоритет немедленной прибыли над статистической значимостью из-за характера своего бизнеса. Статистическая значимость A / B-тестов зависит от количества проводимых исследований, а исследование требует времени. Учитывая, что новости меняются быстро, к тому времени, когда тест использует достаточно, новости уже изменились, и уроки, извлеченные из исследований, не применимы.

С другой стороны, если у экспериментальной группы в крупной компании есть несколько месяцев, чтобы разработать и провести тестирование новой функции, A / B-тесты могут быть более подходящими. Прибыль не вызывает серьезного беспокойства, и, учитывая, что крупные компании обычно имеют большие платформы, статистическая значимость в определенной гипотезе очень важна - учитывая, что результаты теста будут определять интерфейс для всей аудитории компании. Команда может провести обширный анализ результатов после обработки и быть уверенным в принятии решения, прежде чем оно будет использовано.

Конечно, существует множество других факторов, выходящих за рамки парадигмы «прибыль / информация», которые следует учитывать при принятии решения о значении δ для вашей экспериментальной модели. Однако размышление через призму прибыли и информации может немного прояснить поиск δ.

Спасибо за прочтение!

Недавно я запустил новый подкаст ML & DS Papers On The Go. Цель подкаста - донести до ваших ушей самые увлекательные и последние достижения, пока вы в пути - никогда не бывает плохим временем, чтобы быть в курсе последних тенденций и разработок в области исследований!

Посмотрите это на Spotify здесь. Не стесняйтесь подключаться к LinkedIn - я все еще изучаю, как ориентироваться в пространстве подкастов, поэтому я хотел бы связаться и услышать отзывы, если они у вас есть.