Обзор

  • В настоящее время механизмы рекомендаций вездесущи, что играет очень важную роль в принятии клиентом решения о покупке.
  • Внедрение Word от BERT, Word2Vec, TF-IDF очень популярны и используются для выполнения различных задач обработки естественного языка.
  • В этом блоге мы стремимся объяснить наш подход к рекомендации и ранжированию продуктов пользователям, использующим BERT на страницах продуктов.

Введение

Рекомендация — важная часть платформы электронной коммерции, которая всегда помогала клиентам в принятии решения о покупке. Это мощный канал привлечения, повышающий качество обслуживания клиентов.

Позвольте мне показать вам поливитаминную таблетку (Neurobion Forte Tablet) на нашей платформе.

В этой статье мы создадим собственную систему рекомендаций для похожих товаров и ранжируем похожие товары. Но мы подойдем к этому с уникальной точки зрения. Мы поделимся нашими двумя разными версиями рекомендаций по похожим продуктам. Давайте погрузимся прямо в это.

В этой статье я рассмотрел несколько понятий, о которых вам следует знать. Я рекомендую взглянуть на это:-

Содержание

  1. Подход (подготовка данных)
  • Детали каталога (знание безрецептурных продуктов, которое у нас есть)
  • Какое встраиваемое слово лучше?

2. Версия 1: подход на основе TFIDF.

3. Версия 2: Как BERT помог в ранжировании нашего списка похожих продуктов?

  • Проблема с холодным запуском
  • Почему БЕРТ?

Подход:

Мы стремимся рекомендовать нашим клиентам безрецептурные (внебиржевые) продукты. Для каждого безрецептурного продукта у нас есть много дополнительной информации, которая однозначно определяет продукт, это наши базовые данные.

Детали каталога:

  1. SKU (складская единица) Название
  2. Артикул Описание
  3. Название бренда
  4. Название производителя
  5. Вариант продукта
  6. Теги продукта
  7. Детали использования продукта
  8. Тип продукта
  9. Вкус продукта
  10. Цвет продукта
  11. потенция
  12. Целевая возрастная группа
  13. Пол Детали

Все эти функции вместе помогают нам определить продукт. Эти функции представлены в виде текста, который необходимо встроить с помощью подходящего вложения документа.

Внедрение слов. Собирательный термин для моделей, которые научились сопоставлять набор слов или фраз в словаре с векторами числовых значений.

Встраивания документов отличаются от вложений слов тем, что они дают вам одно вложение для всего текста, тогда как вложения слов дают вам вложения для отдельных слов.

В. Какое встраивание слов лучше всего подходит для представления наших текстовых функций?

→ В нашем случае встраивание продукта на основе TF-IDF работало лучше всего.

Версия 1: - TF-IDF (в начале 2018 г.)

У нас есть около 1Lakh+ внебиржевых продуктов, для которых у нас есть встраивание TF-IDF.

Чтобы определить список наиболее похожих продуктов, мы использовали подход, основанный на косинусном сходстве (подробно объясненный здесь: Корпусные и основанные на знаниях меры семантического подобия текста).

Мы выбрали 30 наиболее похожих продуктов и ранжировали их на основе оценки схожести.

Этот подход сработал очень хорошо, все приветствовали рекомендацию по аналогичному списку продуктов. В течение дня или двух мы получили около 5 тысяч кликов по списку.

Версия 2: - Подход к ранжированию на основе BERT

Вышеупомянутый подход имел недостаток, заключающийся в том, что ранжирование продуктов основывалось на показателе схожести. Следовательно, чтобы улучшить пользовательский опыт, мы планировали ранжировать продукты на основе данных CTR.

На странице товара P1 из списка похожих товаров вверху должен быть показан товар с максимальным CTR.

Проблема ХОЛОДНОГО ЗАПУСКА:-

Мы могли бы отсортировать продукты непосредственно на основе данных CTR, но ежедневно на нашу платформу добавляется около 100+ продуктов, для которых нам нужно время для сбора точных данных CTR.

Попытка 1:

Основываясь на внедрении функций продукта TF-IDF, мы решили обучить CTR продукта (P2) из ​​аналогичного списка, показанного на странице продукта (P1).

Встраивание на основе TF-IDF имеет очень большой размер, и даже после уменьшения размерности оно не смогло узнать природу CTR.

Попытка 2:

В. Почему BERT?

BERT:представление двунаправленного кодировщика от Transformer имеет возможность включать как синтаксический, так и семантический смысл текста. Визуализация и измерение геометрии BERT (доказано)

BERT обеспечивает встраивание слов, а для встраивания документов используются различные стратегии объединения, чаще всего используется объединение по максимальному или среднему значению.

Помимо объединения, мы также можем использовать RNN для встраивания документов. RNN принимает вложения слов каждого токена в документе в качестве входных данных и предоставляет свое последнее выходное состояние в качестве встраивания документа. Вы можете выбрать, какой тип RNN (GRU или LSTM) вы хотите использовать.

Мы точно настроили BERT для нашего набора данных в медицинской области (Универсальная языковая модель для тонкой настройки для классификации текста — точно настроенная модель для предметной области работает лучше, чем предварительно обученная модель) и с помощью этого полученного продукта функции встраивания слов, которые имеют как синтаксические и смысловая детализация текста. Еще одним большим преимуществом BERT является то, что текстовые данные переменной длины могут быть представлены в виде вектора фиксированной длины. В. Как мы получили идеальное встраивание?

Мы провели различные эксперименты, чтобы получить встраивание документов, и получили наилучшие результаты с помощью Fine Tuned-BERT Embedding на токене [CLS]. В точно настроенной модели скрытое состояние [CLS] является хорошим представлением предложения.

→ Мы обучили регрессор ансамбля (Xgboost) на данных CTR с встраиванием Fine Tuned-BERT в токен [CLS] (первый токен) и получили оценку модели 87,09% на тестовых данных.

Результат:

Эта модель научилась прогнозировать CTR (продукта P2, показанного на продукте P1) с помощью функции Fine Tuned-BERT Embedded (P1 и P2), решая нашу проблему ранжирования как старых, так и новых продуктов в списке рекомендаций по похожим продуктам.

Использованная литература:

Измерения семантического подобия текста на основе корпуса и знаний

BERT: предварительное обучение глубоких двунаправленных преобразователей для понимания языка

Визуализация и измерение геометрии BERT

Тонкая настройка универсальной языковой модели для классификации текстов

Xgboost модель ансамбля