Захра Назари, Джеймс Макинерни и Чинг-Вей Чен

2 октября 2018 года более 800 участников собрались на 12-й конференции ACM по рекомендательным системам в Ванкувере, Канада. Конференция проходила в течение шести дней с различными обучающими программами и семинарами в дополнение к основной конференции. Однодорожечный формат был использован впервые со следующим распределением по направлениям исследований:

Spotify был широко представлен, начиная с учебника Смешанные методы для оценки удовлетворенности пользователей, написанного » Джин Гарсия-Гатрайт, Кристин Хози, Брайаном Сент-Томасом, Беном Картереттом и Фернандо Диасом, с статьи «Исследуй, используй, и объясните: персонализация объяснимых рекомендаций с бандитами » Джеймса Макинерни, Бенджамина Лакера, Саманты Хансен, Карла Хигли, Хьюга Бушара, Алоиса Грусона и Ришаба Мехротры, позиционный документ Оценка и устранение алгоритмических предубеждений - но прежде чем мы доберемся до цели Джин Гарсиа-Гатрайт, Аарон Спрингер, Генриетт Крамер на семинаре FATREC и завершение RecSys Challenge, организованным Чинг-Вей Ченом, Маркусом Шедлом из Университета Иоганна Кеплера, Хамедом Замани из Массачусетского университета в Амхерсте и Полом Ламере.

Ключевые темы

Ошибки в рекомендательных системах

Ошибочные данные в рекомендательных системах были постоянной темой на RecSys в этом году. Как обсуждается в нескольких статьях, данные неявной обратной связи, собранные рекомендательной системой в процессе производства, дают данные, искаженные рекомендательной системой. Наивное использование этих данных для автономной оценки может ввести в заблуждение, особенно если рекомендатель, оцениваемый в автономном режиме, сильно отличается от производственного рекомендателя. Это также влияет на пакетное обучение, потому что всегда существует опасность того, что новый рекомендатель обучается имитировать производственный рекомендатель, не обязательно для оптимизации взаимодействия с пользователем. Мы описываем некоторые доклады, появившиеся на основной конференции и семинарах, посвященных этим вопросам.

Влияние рекомендательных систем на общество

Конференция началась и закончилась двумя основными докладами, в которых подчеркивалось социальное влияние рекомендательных систем. Элизабет Черчилль, директор по пользовательскому опыту в Google, призвала дизайнеров и инженеров учитывать пять принципов при разработке рекомендательных систем:

Целесообразно как удобно и практично, Изложено как настойчиво и требовательно, Разъяснимо как понятно или внятно, Справедливо как справедливый и беспристрастный, Этичный: морально хороший или правильный. Кристофер Берри, директор по анализу продуктов компании CBC, завершил конференцию увлекательной историей о тернистом пути к социальной сплоченности в Канаде. Он предложил сообществу изучить, как рекомендательные системы могут способствовать сплоченности и пониманию различий между поляризующим и объединяющим контентом. На основной конференции Recsys that care было названием трека, в котором исследователи обращались к различным темам, включая разнообразие, устойчивость и предвзятость. В рамках семинаров FATREC проводился второй год подряд как семинар на целый день, на котором были представлены идеалы и проблемы справедливости, подотчетности и прозрачности в рекомендательных системах.

Понимание пользователей

Другой очевидной темой были растущие усилия по более глубокому пониманию пользователей в различных областях. Эти усилия варьировались от получения более полного представления интересов и целей пользователей с помощью различных источников информации до более реалистичной интерпретации их неявных и явных сигналов. Исследователи стремились использовать свои знания для разработки и оптимизации методов, которые удовлетворяют реальные потребности пользователей и нацелены на получение их удовлетворения в долгосрочной перспективе.

Вот некоторые из основных моментов обучающих программ, конференций и семинаров. Этот список ни в коем случае не является исчерпывающим, многие другие интересные статьи не упоминались.

Учебники

Оценка

В этом руководстве Жан Гарсия-Гатрайт, Кристин Хози, Брайан Сент-Томас и Фернандо Диас углубились, объясняя, как подход смешанных методов может обеспечить основу для интеграции качественного и количественного анализа. Используя этот подход, исследователи могут составить целостную картину о пользователях и помочь более реалистично интерпретировать неявные сигналы. Этот учебник варьировался от небольших качественных лабораторных исследований до сбора больших данных и проверки их достоверности, чтобы понять сложный мир удовлетворенности пользователей.

В другой части этого руководства Бен Картеретт представил основы значимого тестирования, объяснил примеры непараметрических, параметрических и начальных тестов с рекомендациями о том, как исследователи могут понять и интерпретировать результаты этих тестов.

Это руководство было хорошо воспринято аудиторией и стало отличной темой для исследователей, посещающих стенд Spotify, чтобы обсудить свои собственные проблемы и уроки в разработке показателей удовлетворенности.

Последовательности

Sequences - это учебное пособие на полдня, посвященное недавнему обзорному документу о рекомендательных системах с поддержкой последовательностей. В этой области исследуются возможности и проблемы, которые добавление времени как дополнительного измерения добавляет к разработке рекомендательных систем. В качестве основных приложений рекомендаций с учетом последовательности обсуждались четыре типа задач: адаптация контекста, обнаружение тенденций, повторяющиеся рекомендации и задачи с ограничениями порядка. Учебное пособие было разделено на две основные части: оценка и алгоритмы, а завершилось практическим занятием. Разделение набора данных (пример, показанный на рисунке ниже) было выделено как отдельная проблема при автономной оценке этих систем. В алгоритмах были описаны обучение последовательности, матричная факторизация с учетом последовательности и гибридные модели. Слайды можно найти здесь.

Слайд из семинара по последовательностям - оценка офлайн

Основная конференция

По теме смешения рекомендаций было опубликовано несколько интересных статей. Эллисон Чейни и др. сформулировать и прояснить проблему в своей статье Как алгоритмическое смешение в рекомендательных системах увеличивает однородность и снижает полезность. Они представляют модель того, как пользователи взаимодействуют с рекомендациями в течение нескольких итераций обучения и сбора данных. Они используют модель, чтобы исследовать смешение в симуляциях и обнаруживают, что это приводит к однородности рекомендуемых элементов, что измеряется перекрытием рекомендованных элементов для аналогичных пользователей в моделировании и аналогичных пользователей в идеальной настройке без фильтра (мера, которую они называют изменение индекса Жаккара).

Есть разные способы устранения смешения. Один из способов - оценка обратной склонности (например, Ян и др., 2018, Макинерни и др., 2018 на RecSys 2018). Лучшая длинная статья была удостоена Стивена Боннера и Флавиана Василе за их впечатляющую работу Причинное вложение для рекомендации. Они используют другой подход, используя адаптацию предметной области, и показывают, что небольшой объем чистых данных разведки в сочетании с большим объемом искаженных данных помогает в устранении смешения. Роль, которую адаптация предметной области играет в подходе факторизации, заключается в том, чтобы ограничить векторы элементов одинаковыми как для исследования, так и для эксплуатации. Пользовательские векторы могут различаться в разных доменах, но упорядочены, чтобы быть похожими. (Существуют альтернативные допущения в отношении иерархических параметров, например, разрешение векторам элементов изменяться, а пользовательские векторы либо изменяться, либо оставаться неизменными.) Они находят улучшенное автономное обучение с помощью своего метода по сравнению с обычной смешанной факторизацией данных, скорректированных в автономном режиме, чтобы демонстрировать меньший перекос. к популярным и выставляемым товарам.

Что касается выбора правильного пользовательского сигнала для оптимизации модели, растет интерес к оптимизации долгосрочной удовлетворенности пользователей с помощью обучения с подкреплением. Примером выхода за рамки стационарного распределения вознаграждений за оптимизацию всей страницы в этом году является статья Zhao et al. называется Глубокое обучение с подкреплением для постраничных рекомендаций. Они предлагают подход с использованием метода субъект-критик, при котором изучаются две сети. Сеть акторов обучена отображать состояния (то есть контекст пользователя) на лучшее действие (то есть целую страницу рекомендаций). Сеть критиков обучена сопоставлять состояние и лучшее действие с долгосрочным вознаграждением (то есть вознаграждением за всю страницу, измеряемым кликами и покупками в интернет-магазине). Совместное обучение двух сетей позволяет избежать проблем, связанных с большим пространством действий, характерным для рекомендательных систем.

Другое типичное допущение в рекомендателях - то, что набор выбранных элементов уже существует. Интригующий подход Во и Со Поколение соответствует рекомендации: предложение новых товаров для групп пользователей »рассматривает вопрос о том, как можно решить, какие товары создавать дальше, на основе набора исторических данных о потреблении пользователей. Основная идея состоит в том, чтобы изучить совместное встраивание пользователей и предметов, используя данные о потреблении, а затем использовать субмодульную оптимизацию для покрытия областей в пространстве встраивания, которые удовлетворили бы большинство людей. После того, как эти регионы будут обнаружены, потенциальные новые предметы будут сопоставлены с исходным пространством предметов. Они показывают, что с помощью этого метода можно предлагать новые произведения искусства и, что еще более убедительно, сюжеты из фильмов. Например, они утверждают, что рассказанный фильм с сильным повествованием, социальными комментариями и черным юмором будет хитом (подумайте: Красота Америки встречается с криминальным чтивом и Пролетая над гнездом кукушки). Этот метод может предлагать новые элементы, которые удовлетворяют уже существующий спрос новыми способами (но не новыми рынками для оригинального контента).

В одной из попыток рассмотреть более полное представление о пользователях, Калиброванные рекомендации Харальда Штека требуют, чтобы рекомендательные системы были справедливыми по отношению к различным вкусам пользователя. Эта работа показывает, что особенно когда обучающие данные зашумлены и ограничены, оптимизация точности может закончиться списком рекомендуемых элементов, в котором преобладает основной вкус пользователя, игнорируя все их вкусы вместе. Чтобы пользователи не попали в пузырек персонального фильтра, они предлагают метрику калибровки, которая сравнивает распределение категорий / жанров между потребительскими предпочтениями пользователей и списком, по которому они рекомендуются. Эта проблема решается как компромисс между точностью и калибровкой, и предлагается простой жадный алгоритм последующей обработки списка рекомендаций для увеличения калибровки. Алгоритм начинается с пустого списка и итеративно добавляет по одному элементу за раз, оптимизируя компромисс между калибровкой и точностью с использованием предварительно заданного параметра.

Еще одна интересная работа, направленная на лучшее понимание пользователей, была представлена ​​Zhao et al. Интерпретация бездействия пользователя в рекомендательных системах исследует то, что большинство рекомендательных систем игнорируют или считают отрицательными отзывами: бездействие пользователя по отношению к рекомендованному элементу. Вдохновленные теорией поля принятия решений, эти исследователи разработали опрос, в котором изучаются семь причин бездействия пользователей. Они изучили, какие причины по-прежнему являются хорошими кандидатами для будущих рекомендаций, а какие рекомендательная система должна отклонить. Вот вывод:

«Не понравится‹ посмотрел ‹не заметил‹ не сейчас или другим лучше ‹изучить позже или решил посмотреть» означает, что причина «изучить позже или решила посмотреть» - лучший вариант для более поздней рекомендации и проигнорированные элементы с «не понравились бы». Причину следует отбросить. Классификаторы были обучены предсказывать причины бездействия, которые приводили к более чем случайным результатам. Тем не менее, рекомендуется использовать датчики, такие как оборудование для отслеживания взгляда, для повышения эффективности обнаружения причин бездействия.

Мастерские

Семинар RecSys Challenge 2018

На RecSys Challenge Workshop были представлены устные презентации 16 наиболее эффективных систем, представленных на RecSys Challenge 2018 по задаче автоматического продолжения плейлистов. Общее участие было высоким (1791 зарегистрировавшийся, 117 активных команд и 1467 заявок). На первый взгляд, большинство систем, в том числе победившая запись, использовали аналогичный ансамблевой подход, включающий фазу (фазы) генерации кандидатов с высокой степенью отзыва, за которой следовала фаза высокоточного ранжирования с некоторыми специальными методами, применяемыми для обработки Вариант использования холодный старт (плейлисты, состоящие только из заголовков). Однако при более подробном рассмотрении системы показали большое разнообразие и новизну подходов к задаче.

Подходы, основанные на простых методах соседства, оказались на удивление эффективными при решении поставленной задачи, например, здесь и здесь. Факторизация матриц легла в основу многих других систем, использующих такие алгоритмы, как взвешенная регуляризованная матричная факторизация (WRMF) с матрицами плейлистов и треков вместо традиционной матрицы пользовательских элементов. Многие другие системы интегрировали функции помимо базового совместного появления плейлиста и трека через библиотеку факторизации матрицы LightFM, которая является разновидностью машины факторизации.

Помимо общей структуры многоэтапного ансамбля, было представлено большое разнообразие функций и методов. Существовали подход случайного блуждания на основе графов, подход к расширению запросов на основе IR и подход к диверсификации с учетом субпрофилей. Глубокое обучение также использовалось множеством способов: от использования автокодировщиков для прогнозирования содержимого списков воспроизведения до CNN на уровне персонажей в заголовках списков воспроизведения, до повторяющихся сетей для моделирования последовательностей треков.

Записи в Creative Track объединяют данные из других источников, включая звуковые особенности и тексты песен, в методе ансамбля для прогнозирования списка воспроизведения. Одна из уникальных особенностей этого набора данных и проблема - важность названия плейлиста: названия могут указывать на назначение плейлиста (например, Музыка из Вудстока или Потрясающие кавер-версии) и могут иметь большое влияние на типы песен, которые подходят для плейлиста. В то время как в нескольких записях Main Track использовались творческие подходы к изучению названий списков воспроизведения, содержащихся в Million Playlist Dataset, мы можем представить себе дальнейшие выгоды от интеграции подходов и внешних наборов данных из сообществ обработки естественного языка (NLP).

Все принятые статьи вместе с кодом и слайдами (если есть) размещаются на сайте Мастерской. Подробное резюме результатов, подходов и выводов Challenge можно найти в этом препринте в техническом документе.

REVEAL: автономная оценка рекомендательных систем

Семинар REVEAL был посвящен автономной оценке рекомендательных систем с темами, касающимися оценки обратной склонности, обучения с подкреплением и оценочных стендов. Здесь мы выделяем небольшую подборку статей; вы можете найти много других отличных работ на сайте семинара. Никос Влассис и др. представляют обобщение оценок обратной склонности в своей статье О дизайне оценщиков для внеполитической оценки и показывают, как можно извлечь различные существующие внеполитические оценщики, такие как двойная надежность и управляющие вариации, в качестве частных случаев. Тао Йе и Мохит Сингх из Pandora представили свой контекстный бандитский подход, используя LinUCB для домашней страницы Pandora, и показали, как он реагирует на критические события в музыке (например, кончину артиста). Наконец, Минмин Чен из Google Brain обсудил свои методы долгосрочной оптимизации удовлетворенности пользователей с помощью моделирования путем объединения внеполитической оценки с алгоритмом REINFORCE, чтобы вы могли обучать новую политику в автономном режиме, используя рандомизированные онлайн-данные.

Spotify был бриллиантовым спонсором RecSys 2018.