Внутри ИИ

Сопоставление продуктов с помощью машинного обучения - да, мы сделали это!

Руководство Price2Spy по сопоставлению продуктов с помощью машинного обучения

Price2Spy скоро запустит то, что не предлагает ни один другой инструмент для мониторинга цен в мире - подбор продуктов с помощью Machine Learning (ML).

Чтобы ничего не пропустить, приглашаем вас посетить наш блог, чтобы найти всю информацию более подробно:

Мы очень гордимся этим проектом - нам потребовалось 18 месяцев кропотливой работы, с множеством проваливаний в темноте. 18 месяцев - это много для коммерческого проекта, нечасто компании-разработчики программного обеспечения размером с Price2Spy идут на такие инвестиции. Мы сделали это, и мы очень рады, что наконец-то можем представить результаты.

Популярные статьи GoBeyond.ai:

1. Пример использования: технологии, стратегия и процесс роста австралийского ритейлера Princess Polly

2. Роль приложений E-COMMERCE в росте бизнеса

3. Что такое когортный анализ? Руководство для новичков

4. Brexit и электронная торговля

В эти дни вы много прочитаете о различных проектах ML. Имейте в виду, что машинное обучение можно условно разделить на:

  • Числовые задачи (например: попробуйте предсказать цену на нефть на основе ряда доступных факторов спроса и предложения - все численные)
  • Обработка текста (например: попробуйте определить степень сходства между двумя частями текста)
  • Распознавание изображений (широко используется государственными учреждениями по всему миру)

Соответствие продуктов объединяет все 3 из вышеперечисленных - в основном, у вас есть 2 продукта, показанные на 2 веб-сайтах, и вам нужно установить, совпадают ли они. Их названия могут быть похожими или нет, их описания, скорее всего, будут различаться, используемые изображения также могут иметь определенную степень сходства, и, конечно же, у них обоих есть цена, которая должна быть похожей, но не обязательно одинаковой.

Давайте попробуем подробнее рассмотреть следующий пример:

  • Цены на товары очень похожи: 28.75 vs 29.35.
  • Названия продуктов тоже очень похожи, но не идентичны.
  • Объем идентичный (75 мл)
  • Изображения продуктов сложно сравнивать, потому что изображение справа перекошено.
  • Итак, совпадение или нет? Пожалуйста, проявите терпение, мы вернемся к этому вопросу через минуту.

Довольно сложная проблема, не правда ли? И если вы погрузитесь в аспекты машинного обучения, это будет непросто. Тем не менее - Price2Spy удалось это осуществить.

По словам Дж. Ф. Кеннеди, мы сделали это не потому, что это было легко, а потому, что это было так сложно!

Вот почему мы решили поделиться с вами историей этого проекта - я считаю, что это будет хорошее чтение как для энтузиастов машинного обучения (ML), так и для профессионалов электронной коммерции, которые задаются вопросом, как сопоставить их продукты более надежным и в то же время рентабельный способ.

Вернемся к нашему вопросу - вышеуказанные продукты НЕ совпадают. По сути, у Sensodyne есть 2 очень похожих продукта:

  • Расширенный ремонт и защита
  • Ремонт и защита
  • (так что очень близко, но не совпадение!)

(Часть №1) Сопоставление продуктов с помощью машинного обучения - Введение в проект

В последние пару лет мы все стали свидетелями появления новых технологий - искусственного интеллекта, или, как мы в Price2Spy предпочитаем называть его: машинного обучения (ML).

Вся концепция была для нас новой, никто из команды разработчиков Price2Spy не имел с ней опыта, но мы чувствовали, что у нее огромный потенциал, и очень хотели учиться.

После пары месяцев курсов и теоретических представлений - мы спросили себя - как мы можем применить машинное обучение в повседневных операциях Price2Spy?

У нас было несколько проектов-кандидатов, но один из них с самого начала был нашим любимым - Product Matching.

Не потому, что это была легкая победа. Напротив, это была самая сложная проблема машинного обучения, о которой мы могли думать, но нашим клиентам она очень нужна. Значит, он нам тоже нужен.

Соответствие продуктов является важной частью услуг Price2Spy. Проще говоря, без соответствующего продукта наш клиент не сможет провести какое-либо сравнение цен.

До сих пор у нас было 3 способа сопоставления продуктов:

A) Automatch - полностью автоматизированный процесс, применимый, когда продукты клиента (и продукты, перечисленные на сайтах конкурентов) имеют то, что мы называем уникальным идентификатором - это может быть EAN, UPC, ASIN - или в большинстве случаев общий случай MPN (номер детали производителя). Как нетрудно догадаться, этот способ применим не всегда.

Б) Сопоставление товаров вручную - поскольку сопоставление выполняют люди, это применимо всегда. Однако в случае, если у клиента 100 000 товаров, и он хочет получить результаты очень быстро - это может быть проблемой - ручное сопоставление просто недостаточно рентабельно и не может быть выполнено одним щелчком пальца.

C) Сопоставление гибридных продуктов - это комбинация A) и B) - Automatch предоставляет сопоставления кандидатов (которые недостаточно надежны, чтобы доверять им автоматически), и люди проверяют, являются ли эти сопоставления хорошими (необходимо быть продвинутым) или плохим (будет отклонено).

Проблема в том, что Automatch не мог работать с примерами, подобными приведенным ниже, где совпадения очевидны (или почти очевидны) для человеческого глаза, но поиск на сайте конкурента не дает никаких результатов.

Вот несколько таких примеров:

Идея заключалась в том, чтобы внедрить 4-й универсальный метод, который будет достаточно надежным, чтобы ему можно было доверять. У нас было ощущение, что машинное обучение должно быть полезным, но мы не знали, с чего начать.

Но, прежде чем приступить к проекту, мы хотели проверить, делал ли это кто-нибудь еще до нас и возможно ли решение в открытом доступе?

  • Извлечение атрибутов из названий продуктов в электронной коммерции - https://arxiv.org/abs/1608.04670 - наши коллеги из Walmart решили проблему, которая на первый взгляд похожа, но на самом деле не связана с сопоставлением
  • Подбор продуктов в электронной коммерции с использованием глубокого обучения - https://medium.com/walmartlabs/product-matching-in-ecommerce-4f19b6aebaca - в продолжение вышеупомянутого исследования, в этой статье рассматривается продукт сопоставление, что мы и пытаемся сделать. Однако он имеет дело с сопоставлением одного продукта (в то время как мы имеем дело с проблемой сопоставления всего набора продуктов). Честно говоря, нас немного обескуражил тот факт, что сами авторы заявляют, что точность сопоставления составляет от 85% до 90% (мы стремились к гораздо большему).
  • Подход машинного обучения для сопоставления продуктов и категоризации - http://www.semantic-web-journal.net/system/files/swj1470.pdf - эта статья полезна, но только если вы очень глубоко увлечены машинным обучением. В начале нашего проекта мы просто не были на этом уровне
  • Подбор продуктов в розничной торговле с помощью ИИ - https://towardsdatascience.com/unravelling-product-matching-with-ai-1a6ef7bd8614 - эта статья была опубликована спустя много времени после того, как мы приступили к нашему проекту. К сожалению, он мало что раскрывает о технических деталях реализации ML.

Итак, пришлось начать копать самим.

Это было лишь краткое введение в эту сложную тему. Оставайтесь с нами, чтобы узнать больше об этом в следующих публикациях:

Сопоставление продуктов с помощью машинного обучения - подготовка и внедрение

Сопоставление продуктов с помощью машинного обучения - результаты и оценка

Не забудьте передать нам 👏!