НОВОСТИ ПРОДУКЦИИ

Персонализированный рейтинг каналов в мета

Как мы использовали BioBERT, чтобы отображать статьи, которые вы хотите видеть больше всего

Автор Ана-Мария Истрате

В Мета мы помогаем биомедицинским исследователям быть в курсе последних научных препринтов и статей с помощью каналов, основанных на моделях машинного обучения. Недавно мы ввели функцию сортировки фидов по вашему запросу, при которой статьи теперь упорядочены по их релевантности для вас на основе вашего взаимодействия с контентом в фиде.

Мета-персонализированный алгоритм ранжирования

Наш алгоритм персонализированного ранжирования - это основанная на содержании модель рекомендательной системы, которая предсказывает, какие научные статьи будут интересны пользователям больше всего.

В качестве примера возьмем фид о COVID-19. Ниже представлен состав фида под названием «COVID-19», основанный на ряде ключевых слов и концепций. Этот запрос будет извлекать документы, которые либо помечены как «COVID 19», либо с концепцией 2019-NCoV, либо с концепцией COVID-19 и т. Д.

Два пользователя с одинаковым составом фида могут быть заинтересованы в разных статьях из этого фида в зависимости от их уникальных интересов. Понятие персонализированного ранжирования основано на идее, что не все статьи в ленте будут одинаково интересны для пользователя. Мы можем узнать об уникальных интересах пользователя по его предыдущим кликам и использовать их для ранжирования новых статей в их ленте.

Вот как выглядят стандартные и персонализированные рейтинги для ленты COVID-19:

Как небиомедицинский исследователь, меня в основном интересуют статьи, в которых рассказывается о более общих аспектах COVID, таких как влияние на психическое здоровье, госпитализации, прогнозы и географические различия. Модель может извлечь уроки из моего прошлого взаимодействия с моим фидом COVID-19. Обратите внимание, что стандартная версия моей ленты содержит статьи, посвященные более детальным областям исследования COVID-19, которые не соответствуют моим интересам. Для сравнения: персонализированный фид содержит больше статей об эпидемиологии и клинических аспектах пандемии.

Обучение ранжированию

Чтобы предсказать, какие статьи могут быть интересны пользователю, мы можем посмотреть, какие статьи его были ранее интересовали, и извлечь из этого урок. Интересы пользователя будут отображаться в их поведении на нашей платформе, например в кликах, сохранении в библиотеке или полнотекстовых загрузках. Мы можем использовать эти сигналы для создания модели машинного обучения, которая научится размещать более релевантные статьи в верхней части ленты пользователей.

Основными компонентами алгоритма персонализированного ранжирования являются вложения каналов и бумаги, которые мы вычисляем с использованием BioBERT [1], современной модели языкового представления для биомедицинского анализа текста. BioBERT предварительно обучен на крупномасштабных биомедицинских корпусах и построен на основе BERT [2], модели-преобразователя, которая произвела революцию в области обработки естественного языка (NLP), получив новые современные результаты по широкому кругу задач. например, распознавание именованных сущностей, языковой вывод или ответы на вопросы.

Встраивание фида

Для данной пары пользователь / канал мы получаем список документов, на которые пользователь нажимал в прошлых сеансах канала. Затем мы кодируем названия каждого из документов с помощью токенизатора BioBERT и передаем их через модель BioBERT. Мы извлекаем скрытые состояния из всех токенов с последнего уровня и вычисляем вложение предложения, усредняя их. Мы экспериментировали с использованием токена CLS в качестве представления предложения, но результаты были менее обнадеживающими (вспомните, что @ k, описанное в разделе Оценка, было ниже).

Когда у нас есть вложения заголовков для каждой статьи, мы объединяем их для вычисления встраивания каналов. Мы экспериментировали с различными методами агрегирования, в том числе с использованием самых последних взаимодействий N. Усреднение всех прошлых взаимодействий дало наилучшие результаты. Как только у нас есть встраивание фида, он становится представлением взаимодействия этого пользователя с этим конкретным фидом. Чем больше пользователь исследует значимые для него статьи в своем фиде, тем более репрезентативным встраивание фида будет соответствовать его интересам.

Бумажные вставки

Как только новые документы появляются в фиде, мы токенизируем и встраиваем их, передавая их заголовки через BioBERT, аналогично процессу создания встраивания фида. Таким образом, мы представляем и документы, и корм в одном пространстве для встраивания.

Рейтинг

После получения вложений подачи и бумаги мы вычисляем оценки сходства между ними. Эти оценки говорят нам, насколько бумага похожа на подачу в пространстве для встраивания. Поскольку цель состоит в том, чтобы разместить наверху более релевантные статьи, мы ранжируем новые статьи по их сходству с встраиванием каналов.

Кто получает персонализированный рейтинг?

Чтобы предоставить значимый сигнал об интересах пользователя, нам нужно достаточно прошлой информации, чтобы учиться, поэтому мы вычисляем персонализированный рейтинг только для каналов, которые имеют как минимум N взаимодействий (например, N = 10). Более того, персонализация происходит для каждого пользователя, для каждого канала, поэтому пользователь может увидеть эту функцию в некоторых, но не во всех своих каналах. Это связано с тем, что мы не используем сигналы из других каналов при вычислении встраивания конкретного канала. Пользователи обнаруживают уникальные интересы в каждом из своих каналов, и мы хотим сохранить этот уровень конкретности. Мы также не используем сигналы других пользователей при вычислении встраивания каналов для конкретного пользователя. Мы не предполагаем, что участие других пользователей или каналов может быть передано другим лицам.

Оценка

Напомним @ k

Мы оценили наш подход к персонализированному ранжированию, используя анонимные прошлые взаимодействия пользователей из вовлеченных каналов. Для каждого фида в нашем оценочном наборе мы извлекли взаимодействия из последних N сеансов фида. Мы использовали взаимодействия из N -1 предыдущих сеансов, чтобы вычислить встраивание каналов и спрогнозировать взаимодействия в N -м сеансе. Мы оценили наш подход с использованием отзыва @ k для k = [1, 5, 10, 15, 20, 25].

NDCG

Мы также оценили алгоритм с помощью нашей собственной команды биокураторов. Они оценили 30 лучших статей как по релевантности, так и по индивидуальному рейтингу по ряду каналов. Затем мы использовали NDCG @ k для k = [1, 5, 10, 15, 30], чтобы сравнить два рейтинга с использованием их рейтингов, что способствует персонализированному ранжированию.

Если вы хотите узнать больше о данных и результатах, свяжитесь с нами.

Заключение

В Meta наша цель - ускорить науку и упростить исследовательские процедуры наших пользователей, упростив для них поиск важных для них исследований. Мы надеемся, что персонализированный рейтинг сделает это просто немного легче добиться этого. Попробуйте персонализированный рейтинг в одной из ваших лент сегодня!

Об авторе: Ана-Мария Истрате - научный сотрудник Инициативы Чана Цукерберга и выпускница Стэнфордского университета (степень бакалавра прикладной математики '17, магистр компьютерных наук '19), работает над рекомендациями, ранжированием и алгоритмами интеллектуального анализа текста для Мета.

Ресурсы

  1. Ли, Джинхёк и др. BioBERT: предварительно обученная модель представления биомедицинского языка для биомедицинского анализа текста. Биоинформатика 36.4 (2020): 1234–1240.
  2. Девлин, Джейкоб и др. «Берт: Предварительная подготовка глубоких двунаправленных преобразователей для понимания языка». Препринт arXiv arXiv: 1810.04805 (2018).

Являясь проектом Инициативы Чана Цукерберга, Meta бесплатна и доступна исследователям во всем мире.