Новая структура позволяет создавать среды моделирования для изучения алгоритмов обучения с подкреплением в рекомендательных системах.

Недавно я начал новый информационный бюллетень, посвященный образованию в области искусственного интеллекта. TheSequence - это информационный бюллетень, ориентированный на искусственный интеллект (то есть без рекламы, без новостей и т. Д.), На чтение которого уходит 5 минут. Наша цель - держать вас в курсе проектов, исследовательских работ и концепций машинного обучения. Пожалуйста, попробуйте, подписавшись ниже:



Системы рекомендаций окружают нас повсюду, и с каждой минутой они становятся все сложнее. В то время как традиционные рекомендательные системы были ориентированы на разовые рекомендации, основанные на действиях пользователя, новые модели эффективно участвуют в последовательном взаимодействии, пытаясь найти лучшую рекомендацию на основе поведения и предпочтений пользователя. Этот тип рекомендательных систем известен как совместные интерактивные рекомендатели (CIR) и был вызван достижениями в таких областях, как обработка естественного языка (NLP) и глубокое обучение в целом. Однако создание этой системы остается проблемой. Недавно компания Google открыла исходный код RecSim, платформу для создания среды моделирования для CIR.

Несмотря на популярность и очевидную ценность CIR, их реализация остается ограниченной. Отчасти это связано с трудностями моделирования различных сценариев взаимодействия с пользователем. Традиционные подходы к обучению с учителем приводят к очень ограниченным результатам, когда дело доходит до CIR, учитывая, что трудно найти наборы данных, которые точно отражают динамику взаимодействия с пользователем. Обучение с подкреплением превратилось в стандарт де-факто для внедрения систем CIR, учитывая динамический и последовательный характер процесса обучения. Так же, как системы CIR основаны на последовательности действий пользователя, агенты обучения с подкреплением обучаются, предпринимая действия и получая вознаграждение в последовательности ситуаций в данной среде. Хотя системы обучения с подкреплением концептуально идеальны для реализации CIR, существуют очень заметные проблемы реализации.

· Обобщение для всех пользователей: большинство исследований RL сосредоточено на моделях и алгоритмах, включающих единую среду. Способность обобщать знания между разными важна для эффективного агента CIR.

· Комбинаторные пространства действий: большинство систем CIR требуют изучения комбинаторных вариантов рекомендаций и действий пользователя, которые трудно уловить в имитационных моделях.

· Большое стохастическое пространство действий. Многие среды CIR имеют дело с набором рекомендуемых элементов, который генерируется динамически и стохастически. Подумайте о том, что механизм рекомендаций по видео может работать с пулом видео, которые постоянно меняются с каждой минутой. Системы обучения с подкреплением обычно сталкиваются с проблемами в этих нефиксированных средах.

· Долгие горизонты. Многим системам CIR необходимо работать в течение длительного периода, чтобы учесть любые существенные изменения в предпочтениях пользователей. Это еще один сложный аспект для имитационных моделей.

Большинство этих проблем сводилось к тому, что очень сложно эффективно моделировать комбинации действий пользователя таким образом, чтобы их можно было количественно измерить и использовать для улучшения политики обучения агента.

Введите RecSim

RecSim - это настраиваемая платформа для создания сред моделирования, позволяющая исследователям и практикам оспаривать и расширять существующие методы RL в настройках синтетических рекомендаций. Вместо того, чтобы пытаться создать универсальный идеальный симулятор, RecSim фокусируется на симуляциях, которые отражают определенные аспекты поведения пользователя в реальных системах, чтобы служить контролируемой средой для разработки, оценки и сравнения рекомендательных моделей и алгоритмов.

По сути, RecSim имитирует взаимодействие рекомендательного агента со средой, состоящей из модели пользователя, модели документа и модели выбора пользователя. Агент взаимодействует со средой, рекомендуя пользователям наборы или списки документов (известные как планшеты), и имеет доступ к наблюдаемым функциям смоделированных отдельных пользователей и документов, чтобы давать рекомендации.

Если углубиться в подробности, среда RecSim состоит из модели пользователя, модели документа и модели выбора пользователя. Рекомендующий агент взаимодействует со средой, рекомендуя пользователю списки документов. Агент использует функции наблюдаемого пользователя и кандидата в документ, чтобы давать свои рекомендации.

Модель документа также отбирает элементы из предшествующих характеристик документа, включая скрытые функции, такие как качество документа; и наблюдаемые функции, такие как тема, или глобальная статистика, например рейтинги или популярность. Агенты и пользователи могут быть настроены для наблюдения за различными функциями документа, поэтому разработчики могут гибко фиксировать различные режимы работы RS. Модель пользователя отбирает пользователей из ранее настраиваемых пользовательских функций, включая скрытые функции, такие как личность, удовлетворенность, интересы; наблюдаемые особенности, такие как демография; и поведенческие особенности, такие как продолжительность сеанса, частота посещений и бюджет.

Когда агент рекомендует документ пользователю, ответ определяется моделью выбора пользователя, которая может получить доступ к наблюдаемым функциям документа и всем функциям пользователя. Другие аспекты ответа пользователя могут зависеть от скрытых характеристик документа, таких как тема или качество документа. После использования документа состояние пользователя претерпевает переход через настраиваемую модель перехода пользователя, поскольку удовлетворенность или интересы пользователя могут измениться.

Другой важный компонент архитектуры RecSim - это тот, кто отвечает за управление взаимодействием между агентами и средой. Взаимодействие основано на шести основных шагах.

1. Симулятор запрашивает пользовательское состояние у модели пользователя, как наблюдаемые, так и скрытые пользовательские функции.

2. Симулятор отправляет агенту документы-кандидаты и наблюдаемую часть состояния пользователя.

3. Агент использует свою текущую политику, чтобы вернуть планшет в симулятор для «представления» пользователю.

4. Симулятор передает рекомендуемый список документов и полное состояние пользователя (наблюдаемое и скрытое) в модель выбора пользователя.

5. Используя указанные функции выбора и ответа, модель выбора пользователя генерирует (возможно, стохастический) выбор / ответ пользователя на рекомендованный список, который возвращается в симулятор.

6. Затем имитатор отправляет выбор пользователя и ответ обоим: модели пользователя, чтобы он мог обновить состояние пользователя, используя модель перехода; и агент, чтобы он мог обновить свою политику, учитывая ответ пользователя на рекомендованный список.

RecSim обеспечивает уникальный подход к оптимизации тестирования и проверки систем CIR на основе глубокого обучения. Код был открыт на GitHub, и к выпуску прилагалась эта исследовательская статья. Конечно, будет интересно увидеть, какие типы моделирования исследователи и специалисты по обработке данных создают на основе RecSim.