Брошенные корзины покупок уже давно стали проблемой для электронной коммерции. Согласно опросу, 75% онлайн-покупателей склонны добавлять вещи в корзину и никогда не проверять ее. Чтобы решить эту проблему, одним из решений является выявление колеблющихся клиентов и предоставление им скидок или купонов, которые побуждают их оформить заказ в своей корзине. В этой статье мы сосредоточимся на данных и перспективах моделирования этой проблемы. Мы обсудим, как эту задачу можно сформулировать как задачи машинного обучения, а также поговорим о сборе данных и компонентах моделирования.

Определение задачи

Что такое нерешительный покупатель? В рамках нашей проблемы колеблющиеся клиенты - это те, кто с трудом решает какие товары покупать или покупать или нет. Получив правильные стимулы, они смогут окончательно принять решение о покупке и захотят проверить свои тележки. Чтобы сузить проблему и упростить моделирование, мы определяем колеблющихся клиентов как:

Клиенты, которые заключили всплывающую сделку И в конечном итоге заключают сделку со сделкой.

Более серьезную проблему снижения процента отказа от корзины покупок можно свести к двум задачам:

  1. Идентификация нерешительного поведения
  2. Соответствие сделок

Идентификация нерешительного поведения

Первая задача - распознать нерешительное поведение, учитывая последовательность взаимодействий между конечными пользователями и браузерами. Эти взаимодействия включают действия, на которые полагаются типичные рекомендательные системы, такие как щелчок по элементам, просмотр элементов и выбор элементов в корзину. Также следует учитывать более сложные действия, которые имеют решающее значение для нашей цели, такие как переключение между вкладками. Задача формализована как двоичная классификация, где каждая последовательность взаимодействий связана с двоичной меткой, которая указывает, считается ли последовательность действий нерешительной.

Соответствие сделок

Каждому выявленному колеблющемуся клиенту подбирается сделка, наиболее соответствующая его интересам. Эти сделки состоят из изображений и описательной информации о сделках. Интуитивно эту задачу можно рассматривать как задачу ранжирования, при которой наиболее релевантным сделкам следует давать наивысший балл. Тем не менее, в некоторых ситуациях потери в парном ранжировании, которые направлены на то, чтобы гарантировать, что положительные образцы имеют более высокий балл, чем отрицательные, могут быть трудными для обучения. Функция потерь прокси, такая как двоичная кросс-энтропия, может помочь упростить процесс обучения.

Метрики оценки

Идентификация нерешительного поведения

Из-за высокой несбалансированности собираемых данных (значительное количество отрицательных данных) наиболее часто используемый показатель, точность, не подходит для нашей текущей задачи. В качестве альтернативы, вот некоторые из показателей, которые подходят для этой задачи:

  1. Площадь под кривой ROC. (AUC): AUC заботится только о том, занимаетесь ли вы в рейтинге, а не о фактической прогнозируемой оценке. Оценка AUC на уровне 0,5 указывает на то, что производительность настолько хороша, что и случайное предположение.
  2. Оценка F-1: F-1 учитывает как отзывчивость, так и точность, что также делает его отличным кандидатом для несбалансированных данных.

Соответствие сделок

В качестве поиска информации, связанной с задачей, для этой задачи подходят показатели на основе ранга. Ниже мы перечислим некоторые из них:

  1. Hit @ k: Hit @ k вычисляет количество совпадений из k самых высоко оцененных / ранжированных элементов для каждого экземпляра и делит его на общее количество экземпляров.
  2. Средний взаимный рейтинг (MRR): MRR можно рассматривать как расширение Hit @ k, где учитывается качество «попадания». Интуитивно понятно, что удару более высокого ранга следует давать больше кредитов, чем удару более низкого ранга. MRR присваивает оценку каждому попаданию 1 / (2 ^ h), где h - это рейтинг элемента попадания.

Рассмотрение со стороны бизнеса

С точки зрения бизнеса, мы склонны смотреть на коэффициент конверсии и доход с помощью A / B-тестирования при сравнении новых и старых алгоритмов. Всегда полезно тесно сотрудничать с бизнес-отделом и убедиться, что новые технологии помогают компании работать над достижением долгосрочных целей.

Сбор данных

В начале у нас не было аннотированных данных обеих задач. Адаптация обучения с подкреплением может быть решением, но эффект (успешная идентификация колеблющихся клиентов) должен быть намного хуже по сравнению с правилами, определенными экспертами. Таким образом, мы сотрудничали с экспертами в области электронной коммерции, чтобы разработать набор правил для определения того, когда заключать сделки. С помощью этих правил наша интерфейсная система будет открывать сделки на веб-страницах наших клиентов, если срабатывает какое-либо из правил. Мы можем собирать данные о том, нажимает ли клиент на сделку, а затем проверять свою корзину вместе со сделкой. После того, как мы собрали достаточно данных (~ 10 000 положительных взаимодействий по клику и сделке), мы начали переходить на модель идентификации на основе машинного обучения и продолжаем сбор тех же данных.

Интуитивно мы хотим моделировать непрерывное поведение конечных пользователей. Тем не менее, отслеживание слишком детализированных взаимодействий приведет к получению слишком зашумленных данных, которые могут повлиять на производительность моделей. Мы дискретизировали и тщательно отобрали значительный набор дополнительных данных для сбора, в том числе:

  1. Количество времени, которое каждый клиент провел на каждой веб-странице.
  2. Отметка времени, когда клиенты переключаются между вкладками.
  3. Взаимодействие между клиентами и веб-страницей (щелчок, выбор в корзину, оформление заказа и т. Д.).
  4. Элементы, которые каждый покупатель просматривал в каждом сеансе.

Моделирование

Идентификация нерешительного поведения

Как мы обсуждали ранее, в начале процесса сбора данных мы используем экспертные знания для выявления клиентов, которые могут быть заинтересованы в переходе по всплывающим предложениям. На следующем этапе мы моделируем это как задачу временного прогнозирования с учетом данных о поведении пользователей в последних сеансах. Последовательные модели, такие как RNN и модели, основанные на внимании, естественно, являются сильной базой для этой задачи.

Соответствие сделок

Хотя на ранней стадии не так много обучающих данных для поиска наилучшего предложения для всплывающего окна, мы разрабатываем модель на основе контента, которая в значительной степени использует данные контента (изображения, информацию о сделках и т. Д.) Для поиска наиболее подходящих сделок для каждого клиента. Позже мы постепенно дорабатываем нашу модель в сторону гибридной моды, которая балансирует между данными контента и собранными данными о поведении пользователей.

Заключение

В этом сообщении блога подчеркивается важность выявления нерешительных клиентов и то, как мы сводим это к двум подзадачам. Мы поговорили о том, как оценивается наша модель, как выполняется сбор данных и о компоненте моделирования. В следующем сообщении в блоге этой серии я планирую опубликовать результаты оценки и некоторый анализ. До следующего раза :)

Для получения дополнительной информации о Rosetta.ai посетите наш сайт или нашу фан-страницу в FB.