Системы рекомендаций, зависящие от времени ⏱️

Системы рекомендаций, зависящие от времени (часть 1) ⏱️

В своих предыдущих постах (здесь и здесь) я делал обзор современных общих рекомендательных систем. Однако в этих моделях не учитывались временные зависимости: то есть порядок, в котором пользователь взаимодействовал с элементами. Но не волнуйтесь! В этой серии постов мы глубоко погрузимся в мир рекомендательных систем, зависящих от времени.

Зачем уделять время нашей системе рекомендаций?

Время влияет на предпочтения пользователя несколькими способами. Основные эффекты:

Смещение во времени: интересы целой группы пользователей могут со временем меняться. Например, если вы рекомендуете музыку и появляется новый музыкальный стиль (скажем, музыка-ловушка), ваша модель должна уметь это интегрировать.
Изменение предвзятости пользователя: пользователь может со временем изменить свою рейтинговую привычку
Смещение предмета: популярность предмета меняется со временем.
Изменение пользовательских предпочтений: вкусы пользователей меняются

В этой серии статей я буду:

➡️ Опишите использованный набор данных + Раскройте основные автономные показатели, которые мы рассмотрим для оценки наших моделей + Обсудите теорию, реализацию и результаты базовых методов (часть 1)
➡️ Раскройте пять современных методов, которые используйте глубокое обучение, обсудите интуицию / теорию и результаты по сравнению с базовым уровнем (часть 2)
➡️ Сравните результаты, преимущества и недостатки последних реализованных здесь методов совместной фильтрации с зависимыми от времени методами, разработанными в части 1 и часть 2.

Каждый пост можно читать независимо. Не стесняйтесь хлопать, если вам это нравится 👏!

Набор данных: MovieLens 20M

Исходный набор данных

Для анализа воспользуемся всем известным датасетом MovieLens 20M.

Этот набор данных содержит более 20 миллионов оценок от MovieLens, службы рекомендаций фильмов. Ниже представлен образец фрейма данных:

Набор данных включает 138 тысяч пользователей и более 27 тысяч фильмов. Затем мы бинаризуем рейтинги (оставляем только положительный). После этого мы реорганизуем набор данных так, чтобы каждый пользователь видел список movieId, который он оценил положительно.

Фильтрация набора данных

Мы немного фильтруем его. Мы отфильтровываем все сеансы, которые слишком короткие или слишком длинные (5–300 фильмов), и отфильтровываем все элементы, которые не были просмотрены достаточным количеством пользователей (5 пользователей). Таким образом, мы имеем:

Number of users:  97096
Number of items:  13512
Sparsity: 0.5589%

Набор данных Train-Validation-Test

Чтобы оценить качество наших моделей, мы разделим набор данных на 3 подмножества: один для обучения, один для проверки и один для тестирования. Мы будем использовать первое подмножество для обучения модели, второе для выбора лучшей модели во время обучения и последнее для получения окончательных показателей.

Каждый из наборов имеет непересекающиеся наборы пользователей.

Метрики: HR, NDCG, MRR и MAP

Мы будем использовать 4 разных показателя для полноты и облегчения сравнения с другими статьями или статьями. Все показатели измеряют качество и полезность порядка элементов в наших рекомендациях.

Для показателей ниже мы будем использовать разные обозначения: I - индикаторная функция, elemᵢ - i-й элемент в упорядоченной рекомендации, и тестируем набор элементов, которые мы хотим получить в наших рекомендациях (наша цель, если хотите).

Обратите внимание, что все показатели, представленные ниже, предназначены только для одного пользователя и, следовательно, должны быть усреднены по всем пользователям в наборе для тестирования / проверки.

Частота попаданий (ЧСС)

Первым показателем будет частота посещений (HR). Показатель попаданий просто определяется как:

Более конкретно, HR определяется как количество элементов из k наивысших релевантных элементов, которые мы рекомендовали, которые являются частью ожидаемого набора, сверх k (чтобы быть точным, это минимум между k и количеством возможных элементов, которые являются соответствующие).

Следовательно, этот показатель изменяется от 0 (рекомендуемые элементы не являются релевантными) до 1 (все рекомендованные элементы актуальны).

Нормализованная дисконтированная совокупная прибыль (NDCG)

Второй показатель будет NDCG. Сначала нам нужно определить дисконтированную совокупную прибыль (DCG). Чем выше DCG, тем лучше. DCG @ k определяется как:

NDCG является нормализованным родственником DCG, что означает, что мы прогнозируем оценки от 0 до 1, чтобы они переводились между моделями:

Средний взаимный ранг (MMR)

Третьей метрикой будет MRR. MRR просто определяется как ранг первого соответствующего рекомендованного элемента:

MRR - это величина, обратная рангу первого соответствующего элемента, который мы порекомендовали.

Следовательно, это происходит от:

0: ни один из рекомендованных пунктов не актуален
1 / k: первый соответствующий элемент - последний рекомендованный элемент.

…

1: Первый соответствующий элемент также является первым рекомендуемым элементом

Средняя средняя точность (MAP)

Последней метрикой будет MAP. Чтобы определить MAP, нам сначала нужно определить точность в точке отсечки k или P (k). Точность определяется как число из наших k наиболее релевантных рекомендаций, которые являются частью ожидаемого набора, сверх k.

Тогда MAP определяется как:

Как всегда, этот показатель изменяется от 0 (рекомендуемые элементы не используются) до 1 (все рекомендованные элементы актуальны).

Пример

Чтобы проиллюстрировать эти довольно абстрактные метрики, вот небольшой пример:

Обратите внимание, что в рекомендациях есть порядок.

Простые методы

Первые методы, которые мы собираемся описать, - это очень простые методы, которые используются для прогнозирования только последнего элемента, увиденного пользователем.

Обучение этим методам будет осуществляться путем присвоения баллов s (от 0 до 1) каждой паре пунктов a и b: s (a, b). А затем для прогноза мы просто выбираем последний элемент i в последовательности элементов, которые видел пользователь, и выводим k элементов с наивысшей оценкой s (i, u) для u в элементах. Точнее, если у пользователя есть последовательность увиденных элементов [i₁, i₂, i₃,…, iₙ], мы выведем:

В целях реализации обучение такого метода может быть сведено к созданию словаря, отображающего элемент в список (отсортированный по их оценке) других элементов.

Простая ассоциация

Это самый простой метод, который мы увидим во всей этой серии. Ниже я использовал новое обозначение # (a, s). Это количество раз, когда ‘a’ появляется в последовательности s:

Более конкретно, оценка - это количество одновременных вхождений двух элементов в последовательности.

Ниже я добавил простую реализацию с использованием структуры данных Counter, предоставленной непосредственно Python для обучения такого метода.