Автоматическое создание экипировки с помощью глубокого обучения

Команда AI в ASOS использует машинное обучение для улучшения качества обслуживания клиентов. Мы вносим свой вклад в мировое сообщество специалистов по науке о данных, публикуя наши исследования и делясь результатами своей работы на конференциях. В этой статье описывается работа из нашей недавней исследовательской работы Fashion Outfit Generation for E-commerce, опубликованной в ECML PKDD 2020.

Бизнес-кейс

Объединение предметов одежды в одежду - одна из важнейших задач модного ритейла. Покупатели хотят знать: «Какая обувь подойдет к этому платью?», «Что я могу надеть на вечеринку?» Или «Какие вещи мне добавить в свой летний гардероб?». Чтобы ответить на эти вопросы, необходимо понимание стиля, который включает в себя широкий спектр свойств, включая цвет, форму, узор и ткань. Он также может включать текущие модные тенденции, стилевые предпочтения клиентов и понимание контекста, в котором будет носить одежда. В растущем мире электронной коммерции модной одежды становится все более важным иметь возможность удовлетворять эти потребности масштабируемым, автоматизированным и, в конечном итоге, персонализированным способом.

Решение

Мы разработали модель машинного обучения, которая позволяет создавать комплекты на основе заданного исходного продукта. Здесь мы даем обзор нашей модели и некоторых проблем, с которыми мы столкнулись.

Мы рассматриваем одежду как набор модных вещей, которые стилистически сочетаются друг с другом и которые можно носить вместе. Чтобы наряд работал, каждый предмет должен быть совместим со всеми остальными предметами. Наша цель - создать модель, которая встраивает каждый элемент в скрытое пространство стилей, чтобы для любых двух элементов скалярное произведение (мера сходства) их вложений отражало их совместимость.

Мы используем глубокую нейронную сеть, чтобы изучить вложения для каждого элемента. Все продукты в нашем каталоге ASOS имеют связанные изображения, текстовые описания и категориальные атрибутные данные, а наша нейронная сеть объединяет информацию из каждого из этих источников для создания встраиваемых элементов.

Визуальное встраивание

Наши изображения продуктов ASOS - это преимущественно снимки одежды в полный рост на моделях, что означает, что на каждом изображении видна целая одежда. Тренировка сети непосредственно на этих изображениях приведет к утечке информации о других элементах экипировки, которые не будут доступны для действующей системы. Поэтому было необходимо локализовать целевой элемент в изображении.

Характеристики изображений извлекаются с помощью VGGNet, общедоступной предварительно обученной глубокой сверточной сети, широко используемой для этой цели. Затем мы применяем подход, основанный на сопоставлении активации классов (CAM), в результате чего создается тепловая карта для каждого изображения, которую мы используем для взвешивания исходных функций, локализующихся в наиболее релевантных областях.

Встраивание заголовка и описания

Названия продуктов обычно содержат важную информацию, такую как бренд и цвет. Точно так же наши текстовые описания содержат такие детали, как посадка, дизайн и материал товара. Для извлечения информации из них мы используем предварительно обученные вложения, созданные существующим приложением, описанным в разделе Глубокое обучение атрибутов моды. Атрибуция моды обучается по нескольким свойствам, в том числе многим из них, очень актуальным для нашего контекста, включая шаблон, стиль и использование / случай, и, следовательно, эти вложения хорошо подходят для нашей модели.

Встраивание категорий

Категория продукта предоставляет подробные сведения о типе продукта, например Дневные платья, Тканые топы, Повседневные брюки. Мы используем популярный метод GloVe для встраивания слов, чтобы внедрить категории, взяв средний вектор по всем словам в категории.

Оценка экипировки

Мы количественно оцениваем попарную совместимость между продуктами, беря скалярное произведение между их встраиваниями. Совместимость экипировки затем рассчитывается как сумма попарных скалярных произведений для всех пар элементов в экипировке. Выходные данные передаются через сигмовидную функцию, чтобы гарантировать, что он находится в диапазоне [0,1].

Модельное обучение

Наша модель обучается от начала до конца с использованием задачи бинарной классификации. Каждый пример тренировки состоит из одной одежды, состоящей из набора продуктов ASOS. Мы используем внутренний набор данных Buy the Look (BTL), который содержит почти 600 000 нарядов, созданных нашими стилистами ASOS. Набор данных взят со страниц описания продуктов ASOS, поэтому каждый продукт в нашем каталоге появляется один раз как продукт-герой. Поэтому каждый из них состоит из продукта-героя и переменного количества продуктов для укладки (например, платье может быть стилизовано с парой туфель и сумкой).

Мы обучаем модель различать настоящую одежду BTL и отрицательные образцы. Мы генерируем отрицательные образцы, беря одежду BTL и заменяя каждый продукт для укладки случайно выбранным из той же категории.

Генерация нарядов

После обучения нашу модель можно использовать для создания новых костюмов. Наряды любой длины могут быть сгенерированы путем последовательного добавления предметов и повторной оценки. Каждый комплект начинается с семенного продукта из нашего каталога. Затем мы определяем шаблон экипировки, который представляет собой набор типов продуктов, с помощью которых можно дополнить экипировку. Наша цель - найти набор предметов подходящего типа, который максимизирует оценку экипировки.

Исчерпывающий поиск всех возможных комбинаций продуктов комбинаторен по количеству типов продуктов и не может быть вычислен в разумные сроки. Поэтому мы используем поиск луча, который более эффективен с точки зрения вычислений, как показано на диаграмме ниже для шаблона {Юбки, Топы, Обувь, Сумки}.

Пространство стиля

Мы можем визуализировать пространство наших стилей, используя график t-SNE. Это сокращает наши 256-мерные вложения элементов до двух измерений, которые затем можно легко визуализировать. Пример, содержащий образцы нашей женской обуви и платьев, показан ниже. Хотя похожие элементы имеют схожие вложения, мы также можем видеть, что совместимые элементы разных типов продуктов имеют похожие вложения. Вместо того, чтобы платья и обувь были полностью разделены в пространстве стилей, эти типы товаров пересекаются: повседневные платья имеют такую же вставку, как повседневную обувь, и праздничные платья, имеющие такую же вставку, что и повседневная обувь.

Элейн Беттани - старший специалист по машинному обучению на ASOS.com. В свободное время она любит отключаться от электросети, гулять и устраивать кемпинги в отдаленных местах.