Длинный хвост рекомендательных систем и моделей для конкретных наборов

TL;DR

В ходе различных экспериментов мои результаты показали, что, используя определенные неоднородные семплеры (вместо тривиальных однородных семплеров) при обучении систем рекомендаций для наборов данных неявной обратной связи, можно было бы добиться улучшенной производительности с точки зрения Recall @ k для меньших значений k (k = 10). Как ни странно, выборка только положительных наблюдений - т. Е. Записей, соответствующих ненулевой метке в матрице взаимодействия пользователь-элемент - также позволяет добиться улучшения с точки зрения Recall @ k. Эмпирические результаты представлены в разделе «Эксперименты».

Задний план

В течение 2018 года, который был третьим годом моего обучения на степень бакалавра компьютерных наук в Технионе, я записался на летнюю исследовательскую программу стажировки в Cornell-Tech Нью-Йорка.

Меня приняли на работу в лабораторию малых данных профессора Деборы Эстрин, и у меня есть одна из ее докторских диссертаций. студенты, Лунци Ян, будь моим прямым советником. Стажировка длилась восемь недель, в течение которых я изучил основные алгоритмы, используемые для создания рекомендательных систем, реализовал такие алгоритмы с помощью OpenRec [4] и провел различные эксперименты в надежде получить интересные результаты.

Основная причина, по которой многие люди заботятся о рекомендательных системах, - это деньги. Для таких компаний, как Amazon, Netflix и Spotify, рекомендательные системы обеспечивают значительную вовлеченность и доход. Но это более циничный взгляд на вещи. Причина увеличения доходов этих (и других) компаний заключается в том, что они предоставляют своим клиентам реальную ценность - рекомендательные системы предоставляют масштабируемый способ персонализации контента для пользователей в сценариях с множеством Предметы." - «Янир Серуси

Определение проблемы

В этой работе мы используем наборы данных формы бинарной матрицы взаимодействия пользователя с элементом. Это означает, что соответствующая метка для пользователя «i» и элемента «j» будет равна 1, если пользователь «i» в какой-то степени (или до некоторого заранее определенного порога) взаимодействовал с элементом «j», и 0 в противном случае. Это базовая структура набора данных неявной обратной связи (может существовать дополнительная информация об элементах и пользователях, но мы не используем их в этой работе) . Неявные наборы данных отличаются в явные наборы данных. В явных наборах данных наблюдения представляют собой оценки для элементов, сделанных пользователями, эти оценки обычно не являются двоичными.

Проблема длинного хвоста в контексте этой работы относится к распределению неявных наборов данных, обладающих тем свойством, что количество элементов, участвующих только в небольшом количестве взаимодействий, очень велико .

Классические методы матричной факторизации в контексте рекомендательной системы обычно рекомендуют пользователям более популярные элементы (элементы, участвующие в большем взаимодействии с пользователями). Таким образом, элементы с длинным хвостом редко рекомендуются пользователям при использовании моделей, обученных с помощью стандартных алгоритмов (например, PMF и BPR).

Мы хотели бы иметь модель, которая лучше работает при ранжировании элементов с длинным хвостом. Для некоторого подмножества набора элементов в наборе данных (например, элементов с длинным хвостом) мы поставили цель улучшить производительность модели путем обучения моделей для конкретных наборов. Специфичные для набора модели обучены выработке высококачественных рекомендаций для заранее определенного подмножества элементов. Пример использования такой модели можно найти в контексте музыкальных рекомендаций: если крупная компания потоковой передачи музыки хочет познакомить свою аудиторию с определенным жанром или исполнителем, можно использовать специфичную для жанра модель, специально обученную для создания более качественных рекомендации по набору песен / альбомов по жанру / исполнителю.

Другими словами, мы хотим обучить модели, которые исключительно хорошо работают при ранжировании определенных элементов в наборе данных. Оценка моделей для конкретных наборов выполняется только на предметах, взятых из этого набора («сфокусированные предметы»), а не на остальных предметах («несфокусированные предметы»).

В этом сообщении в блоге я опишу эволюцию наших экспериментов на протяжении стажировки, начиная с воспроизведения результатов, достигнутых в статье, посвященной моделям для конкретных наборов данных для явных наборов данных [5], и продолжу экспериментировать с различными положительными и отрицательными образцы в алгоритмах обучения.

Обзор текущего метода - целенаправленное обучение

В статье За пределами глобальной оптимальности: целенаправленное обучение для улучшения рекомендаций Бейтель и др. показывают, что обучение модели рекомендаций с использованием глобальной цели прогнозирования может привести к тому, что многие элементы будут плохо смоделированы и, следовательно, недостаточно обслужены. Они также предлагают процедуру обучения, основанную на оптимизации гиперпараметров и настраиваемую цель матричной факторизации, для создания моделей, которые могут лучше работать при рекомендации таких элементов.

Раздел «Связанная работа» в документе показывает, что попытки улучшить рекомендации по элементам, имеющим лишь несколько наблюдений, в основном полагаются на контекстную информацию, тогда как в подходе «Целенаправленное обучение» используются только данные рейтинга. Они формулируют проблему как задачу оптимизации гиперпараметров, сосредотачиваясь на поиске гиперпараметров модели, которые лучше всего подходят для заранее заданного подмножества элементов.

Они представляют свою целевую функцию в два этапа:

1.) Целенаправленный поиск гиперпараметров - настройка по заранее заданному подмножеству элементов в качестве оценочного набора. Целевая функция определяется следующим образом:

Где:

2.) Модель сфокусированного обучения затем определяется как обучение по вышеуказанной целевой функции с разделением на регуляризацию наблюдений:

Мы видим, что для наблюдений, включенных в заранее заданное подмножество (по которым мы пытаемся достичь более высоких результатов), у нас есть другие гиперпараметры силы регуляризации, чем для значений матрицы встраивания элементов.

Их результаты показали, что для набора данных MovieLens мы получаем повышение точности прогнозирования до 17% с точки зрения RMSE для нишевых фильмов, элементов с холодным запуском и даже для набора, содержащего элементы с наиболее плохим моделированием в исходной модели, которая прошел обучение стандартным образом.

В заключение они показывают, что их метод дает улучшения до 4% при применении к варианту использования матричной факторизации в Google для набора данных, содержащего 79 миллионов наблюдений, которые содержат свойство длинного хвоста.

Введение

Несмотря на впечатляющие результаты, описанная статья также имеет свои ограничения. Во-первых, неясно, как применять методы, описанные в статье, к более сложным моделям, чем матричная факторизация. Во-вторых, они проводят только эксперименты и дают теоретический анализ явных наборов данных (для неявных наборов данных результаты не показаны). Наконец, результаты показаны в терминах RMSE, а не AUC или Recall @ k, методов оценки, которые чаще всего связаны с оценкой наборов данных системы ранжирования.

В качестве попытки устранить эти ограничения была предложена идея попытаться достичь того же эффекта, что и в статье, путем изменения только сэмплера, используемого для обучения. Это означает, что вместо использования стандартной унифицированной выборки для создания обучающих пакетов можно использовать специально подобранную выборку, предназначенную для обучения лучших моделей на заранее определенных подмножествах набора данных, при использовании в сочетании со стандартными алгоритмами рекомендаций (например, PMF, BPR…).

Предвзятые семплеры

Путем определения настраиваемых политик выборки наша цель - обучить модели, которые лучше работают на заранее заданных подмножествах. Исследуемые пробоотборники:

Naïve:

Учитывая параметр «альфа», мы определяем простое категориальное распределение, при котором вероятность выборки сфокусированного наблюдения (то есть того, для которого связанный элемент находится в сфокусированном наборе) становится в альфа раз более вероятной.

Обратная пропорция:

Используя весовые коэффициенты для отдельных элементов, представленные в документе «Фокусированное обучение», мы можем определить категориальное распределение следующим образом:

На основе пользователей:

В наивном подходе мы определили распределение таким образом, что выборка наблюдения, которое находится в наборе фокуса, становилась альфа-раз более вероятной. В подходе к выборке на основе пользователей мы используем ту же идею, но определяем набор фокуса, чтобы удерживать не только наблюдения, которые включают элементы с длинным хвостом (левая красная линия на графике), но также и все наблюдения с участием пользователей, которые с ними взаимодействовали. предметы с длинным хвостом (правая красная линия на графике).

Положительное соотношение:

При использовании обычного точечного сэмплера один из гиперпараметров, настроенных для обучения, называется «положительным отношением». Этот параметр определяет соотношение между положительными и отрицательными выборками в каждом обучающем пакете. Если, например, у нас есть положительный коэффициент 0,2 для партии из 1000 образцов, 200 из этих образцов будут положительными, что означает взаимодействия с меткой 1, и 800 будут отрицательными, что означает отсутствие взаимодействий с меткой 0. При настройке этого гиперпараметра были созданы нетривиальные семплеры, такие как семплер с положительным коэффициентом 1,0, который учитывает только элементы метки-1 в матрице взаимодействия пользователь-элемент.

Большинство экспериментов проводилось на большом наборе данных о взаимодействии с книгами Amazon, который также явно обладает свойством предмета с длинным хвостом.

В основном мы использовали [11,25] часть набора данных, видя, что это будет надежная подмножество набора данных для получения начальных результатов, а затем для распространения любых идей на другие целевые наборы. [11,25] элементы взаимодействия составляют 16% всех наблюдений в наборе данных.

Эксперименты

Первое, что мы хотели проверить, это то, что результаты, показанные в документе «Целенаправленное обучение», могут быть воспроизведены в наборах данных неявной обратной связи. Наши результаты показывают улучшение как с точки зрения Recall @ k, так и с точки зрения AUC. Однако примечателен тот факт, что добавление раздельной регуляризации практически не влияет на результаты. В статье и с использованием явных наборов данных результаты показали значительное улучшение при использовании раздельной регуляризации, чего не произошло в нашем случае.

Как упоминалось ранее, нашей целью было воспроизвести вышеупомянутое улучшение характеристик модели с помощью неоднородных пробоотборников. Мы провели эксперименты с использованием различных семплеров в наборе данных книги Amazon со сфокусированным набором [11,25] и заметили, что Recall @ k, некоторые модели работают значительно лучше, чем обычный PMF.

Следует отметить, что даже несмотря на то, что улучшение с точки зрения Recall @ k было значительным, модели сфокусированного обучения (два крайних правых столбца на графике) превосходят наиболее эффективный предвзятый сэмплер.

Мы также проверили влияние использования разных значений гиперпараметров «положительного отношения» при обучении моделей с использованием PMF. Это привело к противоречивому выводу о том, что использование положительного отношения 1,0, означающего использование только положительных пробоотборников, дает самые эффективные модели с точки зрения Recall @ K.

Мы также пробовали разные варианты использования, выполнив одну и ту же процедуру над полным набором данных книг Amazon для оценки и используя другой оптимизатор.

Наконец, мы также попробовали эту процедуру на наборах данных Tradesy и citeulike.

Набор данных Tradesy дал наиболее значительное улучшение с точки зрения Recall @ k, с увеличением на 33,5% между значениями положительного отношения 0,5 и 1,0. Однако citeulike показал противоположные результаты. Наша попытка объяснить этот результат заключается в том, что citeulike - в отличие от Tradesy и Amazon book - представляет собой относительно небольшой набор данных, который не содержит свойства элемента с длинным хвостом, что делает вероятным, что наличие этих свойств может иметь решающее значение для использования версии 1.0. положительное соотношение для повышения производительности.

Возможные причины

Целенаправленное обучение для неявных результатов набора данных. В нашем случае матрица взаимодействия «пользователь-элемент» является двоичной. Можно рассматривать это как частный случай оценок, где 0 и 1 - это возможные оценки, которые пользователь может дать элементу. Таким образом, возможно, что, поскольку подход сфокусированного обучения достиг определенного успеха при обучении моделей для конкретных наборов данных для явных наборов данных, мы испытали аналогичное влияние на набор данных неявной обратной связи из книги Amazon.

Предвзятые результаты сэмплеров - избыточная выборка подмножества набора данных, мы переоснащаем нашу модель для нескольких наблюдений, связанных с элементами с длинным хвостом, и поощряем обобщение для элементов, которые участвуют в более широком наборе взаимодействий.

Положительные результаты отношения - при использовании положительного отношения 1,0 мы достигли удивительно хорошей модели. Интуиция подсказывает нам, что есть тривиальное решение для этого способа обучения, установка всех векторов элементов и пользователей на значение 1 было бы тривиальным решением. Это тривиальное решение, очевидно, бесполезно в контексте рейтинговой системы. Во-первых, целевая функция при оптимизации по параметрам модели не является выпуклой, поэтому тривиальное решение не обязательно то, что мы могли бы достичь. Эмпирические результаты показывают, что как при использовании Adam, так и SGD в качестве оптимизаторов, локальный оптимум, достигнутый после обучения, хорошо работает как система ранжирования.

Будущая работа

Основное влияние этой работы - возможность обучения моделей только с использованием положительных выборок. В контексте неявных наборов данных матрицы взаимодействия пользователь-элемент являются разреженными. Таким образом, процедура обучения станет существенно короче, обеспечивая при этом лучшие результаты с точки зрения Recall @ K, который является основным показателем оценки во многих случаях использования.

Эта работа является предметом будущего исследования причин феномена обучения с положительным коэффициентом 1,0 и более подробного отчета о правильном использовании смещенных пробоотборников для улучшения производительности при использовании фокусных наборов.