Увлекательный мир обучения с подкреплением

Дело для потребительского бизнеса

С тех пор, как мне стало любопытно и я увлекся обучением с подкреплением и его многочисленными приложениями для промышленности, мое увлечение этой областью только росло с каждым днем. Здесь я хотел бы поделиться некоторыми своими знаниями о потенциальных применениях обучения с подкреплением (RL) для потребительского бизнеса. Но прежде чем я углублюсь в детали, краткое введение в RL для практиков ML, которые плохо знакомы с этой темой.

RL — это ветвь машинного обучения, включающая обучение интеллектуального агента, который может научиться выполнять цель методом проб и ошибок в окружающей среде, и в конце обучения у нас есть агент, который может выполнять цель в реальной жизни самостоятельно. Теперь, если вы знакомы с другими типами машинного обучения — методами обучения с учителем и без учителя — это может показаться очень похожим на подход к обучению с учителем. Но большая разница между ними (среди прочих различий) заключается в том, что RL не требует предоставления каких-либо явных меток, в отличие от методов обучения с учителем. Для получения более подробной информации и контекста вы можете прочитать несколько блогов/статей на RL. (Есть несколько даже на TDS/medium.) Вы также можете найти некоторые из новаторских работ, проделанных Deepmind, OpenAI, чтобы узнать больше о достижениях за эти годы, а также прочитать книгу Обучение с подкреплением — An Введение Ричарда С. Саттона и Эндрю Г. Барто, чтобы узнать, как возникла область RL.

Среди многих супер-захватывающих приложений RL мой поиск был сосредоточен на приложениях для вариантов использования персонализации для потребительского бизнеса. В то время как мой вариант использования сосредоточен на СМИ и издательской индустрии, его можно очень легко распространить на другие отрасли, такие как интернет-магазины, путешествия/гостиничный бизнес и т. д. Ближе к концу мы рассмотрим общие контуры Решение RL, которое может помочь выполнить эти варианты использования.

а) Персонализация доставки информационных бюллетеней. Одним из основных источников трафика для любой медийной и издательской фирмы являются информационные бюллетени. Мы часто сталкиваемся с тем, что информационные бюллетени наших любимых ежедневных/еженедельных газет и журналов доходят до нас в одно и то же время, независимо от того, в какое время мы хотим их читать. Другими словами, информационные бюллетени нередко рассылаются всем пользователям в одно и то же время/день недели. Теперь, в нынешнюю эпоху цифровизации, это не обязательно так. Идеальным решением было бы отправить его в то время, когда он с большой долей вероятности будет открыт пользователем. RL можно использовать для отправки электронной почты в наиболее оптимальное время для каждого пользователя, обеспечивая персонализированный опыт для читателей.

b) Идентификация пропускной способности NL. Во-вторых, еще одна проблема, с которой часто сталкиваются маркетологи, заключается в определении оптимального количества NL для отправки подписчику. «Сколько слишком много писем на пользователя?» Общеизвестно, что аппетит NL варьируется от пользователя к пользователю и не всегда одинаков. Тем не менее, мы привыкли постоянно отправлять одно и то же количество писем всем подписчикам. Я признаю, что нет простого способа динамически определить это магическое число для каждого пользователя. Но с помощью методов прикладного RL эту проблему можно решить.

c) Индивидуальные подписки на коробки. Подписки на коробки — это продукты по подписке, разработанные таким образом, что выпуск подписки состоит из определенного ассортимента продуктов. например. ежемесячная подписка на бьюти-бокс будет содержать случайный набор косметических средств, таких как средства для лица, кожи, волос и т. д. В выпуске следующего месяца может быть совершенно другой набор продуктов. Обратите внимание, что у подписчика нет выбора при выборе продуктов, которые он хочет использовать в этой модели, и единственная обратная связь от пользователя — это продление подписки. Основная проблема в этой проблеме заключается в определении правильного набора продуктов, который максимально удержит наших подписчиков.

Сформулировав эту задачу как задачу RL, мы могли бы определить оптимальный ассортимент для каждого выпуска подписки, максимально персонализированный для пользователя при максимальном удержании подписчика.

d) Динамический учет платного доступа. В индустрии цифровых медиа и издательского дела одно из ключевых решений, которое должны принять издатели, касается компромисса между получением дохода за счет показа рекламы, позволяя пользователям бесплатно читать статьи, и получением дохода за счет подписки путем блокировки бесплатного доступа. с цифровым платным доступом (после определенного количества бесплатных статей), побуждающим пользователя подписаться. Призывом к действию от платного доступа может быть либо подписка, либо побуждение читателя зарегистрироваться, чтобы читать дальше. Обычно счетчик платного доступа установлен на — 2/4/6 бесплатных статей в месяц для всех пользователей.

Но такая реализация не является оптимальным решением, потому что лояльный читатель бренда будет продолжать читать больше статей, способствуя увеличению дохода от рекламы, а сокращение читательской аудитории до 4 статей в месяц означает сокращение потенциально большего дохода от рекламы от этого. пользователя преждевременно. В идеале мы могли бы ввести платный доступ для такого пользователя, как после публикации 6–7 статей в месяц. С другой стороны, менее заинтересованный пользователь, который вряд ли вернется, чтобы прочитать вторую статью, не должен иметь ограничение в 4 статьи, поскольку это пользователь вряд ли будет получать доход от рекламы, поэтому мы могли бы установить платный доступ даже при втором посещении для такого пользователя и подтолкнуть его к подписке.

Вместо того, чтобы устанавливать такие ручные правила для каждого пользователя, RL мог бы изучить шаблон чтения каждого пользователя и порекомендовать оптимальный лимит платного доступа, чтобы максимизировать потенциальный доход для каждого пользователя. Мало того, это обучение адаптируется к меняющемуся читательскому поведению каждого пользователя с течением времени и автоматически корректирует лимит платного доступа, чтобы максимизировать потенциальный доход для бизнеса.

Теперь, когда мы рассмотрели варианты использования, позвольте мне взглянуть на дизайн решения RL для одного из вариантов использования. Мы бы решили эту проблему, используя алгоритм RL под названием DQN (Deep Q-Network), который представляет собой комбинацию принципов глубокого обучения и Q-обучения. Я предполагаю, что большинство практиков машинного обучения знакомы с глубоким обучением. Q-обучение — это алгоритм класса решений RL, называемых табличными решениями, целью которого является изучение значений q для каждого состояния. (Q-значение состояния — это кумулятивное (дисконтированное) вознаграждение от всех состояний, в которые агент мог перейти в будущем). Это элегантное решение для задач с конечным пространством состояний, таких как проблема замерзшего озера. Однако для больших пространств состояний это решение становится громоздким, и нам нужно будет принять приблизительный способ оценки значения состояния, и этот класс решений называется приближенными методами. DQN — самый популярный алгоритм среди приближенных методов.

В DQN сеть глубокого обучения служит аппроксимацией функции, которая оценивает значение для данного состояния/(действия). Дизайн решения, алгоритм и настройка будут одинаковыми для всех вариантов использования, но конфигурация MDP (марковский процесс принятия решений) — пространства состояний, вознаграждения, действия, которые необходимо предпринять, будут различаться для каждого варианта использования.

Конфигурация MDP для варианта использования а) будет следующей.

Состояния — паттерн открытия/клика NL за последние (1/2) месяца.

Действие — 1–24 часа суток. В дальнейшем это число может быть сокращено до 12 значений действий, где каждое действие представляет собой 2-часовой период, в течение которого электронное письмо может быть отправлено.

Вознаграждение — +2 за переход по безлимитному холлу, +1 за открытие безлимитного лота, 0 в противном случае

Я также делюсь ссылкой на средний пост в блоге (автор Мехди Бен Айед и Патрик Галина из команды Zynga ML Engineering), в котором объясняется, как они решили проблему настройки уведомлений приложений. Это был очень полезный справочный источник и мотивация для проверки решения/подхода DQN для этих вариантов использования.

Я надеюсь, что приведенные выше бизнес-примеры использования приложения RL оказались познавательными и полезными. Я хотел бы дополнить эту статью несколькими примерами использования для рекламного/коммерческого бизнеса и несколькими учебными ресурсами, которые я считаю полезными для создания возможностей RL в моей команде.

Увлекательный мир обучения с подкреплением

Дело для потребительского бизнеса

Вопросы по теме