Представляем Complete the Look: систему дополнительных рекомендаций на основе сцен

Эрик Ким и Эйлин Ли | Визуальный поиск

В команде визуального поиска Pinterest мы постоянно работаем над тем, чтобы помочь людям находить новые идеи визуально, даже если у них нет слов, чтобы описать то, что они ищут. В традиционной системе поиска изображений цель состоит в том, чтобы вернуть результаты, которые визуально похожи на изображение запроса, однако мы работаем с механизмом визуального обнаружения, где нам нужно идентифицировать и возвращать визуальные компоненты из более широкой сцены, чтобы рекомендовать такие идеи, как одежду или стиль гостиной, а также дифференцируйте и персонализируйте запросы. Это делает большую сцену такой же важной, как и основной элемент в любом заданном пине. Каждый визуальный объект в пине - это возможность искать и находить.

В последней разработке, чтобы получить рекомендации для вдохновения и товаров для покупок, мы создали Complete the Look, который использует богатый контекст сцены, чтобы рекомендовать визуально совместимые результаты в булавках для моды и домашнего декора. Complete the Look учитывает контекст, такой как одежда, тип телосложения, время года, внутреннее или внешнее пространство, различные предметы мебели и общую эстетику комнаты, чтобы дать рекомендации на основе вкуса в технологии визуального поиска.

В ходе раннего тестирования мы обнаружили, что эта технология работает значительно лучше, чем предыдущие системы рекомендаций. Вы можете найти более подробную информацию в документе, принятом на Конференции по компьютерному зрению и распознаванию образов 2019 (CVPR): Завершите образ: рекомендации по дополнительным продуктам на основе сцен.

Совместимость стилей моделирования является сложной задачей из-за ее сложности и субъективности. Существующая работа сосредоточена на прогнозировании совместимости между изображениями продуктов (например, изображением, содержащим футболку, и изображением, содержащим пару джинсов). Однако эти подходы игнорируют реальные изображения сцены, такие как значок уличного стиля, который может внести сложность с вариациями освещения и позы, но, с другой стороны, потенциально может предоставить ключевой контекст (например, тип тела пользователя или сезон) для получения более точных рекомендаций.

Наше решение было Complete the Look, новый подход к выполнению визуальных дополнений. Система визуального дополнения должна рекомендовать результаты, которые дополняют или хорошо сочетаются с изображением запроса. Например, вы можете визуально искать туфли, которые хорошо сочетаются с платьем. Результаты по этому запросу не ограничены визуальным сходством, но могут исследовать альтернативные измерения стилистического сходства . Система визуального дополнения может быть полезна для дополнения вашего наряда или поиска идеальных стульев для вашего нового стола.

Завершите задачу поиска

Прежде чем мы обсудим детали модели CTL, давайте формализуем некоторую терминологию. Мы определяем изображение сцены как реальное изображение «в дикой природе», такое как человек в солнечный день или шикарная спальня. Это контрастирует с изображением продукта, которое представляет собой изображение продукта крупным планом, обычно на белом фоне.

Мы определяем задачу CTL следующим образом: по изображению сцены и изображению продукта вычислить количественную меру расстояния так, чтобы мера расстояния отражала визуальную взаимодополняемость Между сценой и продуктом. Такая мера расстояния может использоваться либо двоичным классификатором, либо перераспределителем.

Набор данных

Чтобы обучить нашу модель, мы собрали помеченный набор данных, который опубликовали публично здесь. Набор данных состоит из положительных примеров пар сцены и изображения продукта, а также аннотаций категории продукта и ограничивающей рамки. Каждая пара дополняется негативным изображением продукта, которое случайным образом выбирается из одной и той же категории. Наша модель принимает этот триплет в качестве входных данных во время обучения.

Поскольку мы хотим, чтобы модель не запоминала точные продукты, мы делаем дополнительный шаг предварительной обработки, чтобы вырезать продукт из исходного изображения сцены:

Этот дополнительный шаг заставляет модель изучать совместимость сцены и продукта строго независимо от визуального сходства.

Обзор модели

Модель CTL представляет собой глубокую сверточную нейронную сеть с прямой связью и состоит из двух модулей: средства определения характеристик изображения и головки CTL. Головка CTL сочетает в себе глобальное сходство функций с локальным пространственным механизмом внимания, который побуждает модель фокусироваться на определенных областях изображения, чтобы принять решение. Мы использовали архитектуру модели ResNet50 в качестве средства определения свойств изображения, предварительно обученного на ImageNet. Во всех экспериментах мы не проводим точную настройку сети ResNet50.

Модель CTL состоит из трех шагов:

(1) Придайте особый вид сценам и изображениям продуктов

Во-первых, модель генерирует базовые функции для изображений сцены и продукта с помощью сети ResNet50. Мы используем карту функций block4.

(2) Вычислите глобальное сходство.

Затем мы вычисляем глобальную меру сходства между сценой и каждым положительным и отрицательным изображением продукта.

Для этого вычисляются вложения сцены и продукта из карт функций ResNet50 и вычисляются расстояния L2 между двумя вложениями:

Два термина в норме - это вложения сцены и продукта соответственно.

(3) Вычислить локальное сходство.

Мы вычисляем карту значимости локального внимания на основе категорий, которая побуждает модель сосредоточиться на мелких деталях сцены, чтобы обосновать свое решение.

Здесь мы сопоставляем внедрение продукта с каждой пространственной областью на карте промежуточных функций изображения сцены, например block3 базовой сети ResNet50. Поскольку не все регионы сцены одинаково релевантны, мы взвешиваем соответствие с помощью карты внимания на основе категорий, определяемой как расстояние L2 между внедрением области сцены и внедрением целевой категории:

Где s, p - сцена и продукт, c - категория p, f_i - встраивание сцены для региона i, а e_c - это L2-нормализованное встраивание категории для категории c.

Карта внимания основана на категориях, потому что разные элементы заботятся о разных вещах, когда речь идет о совместимости. Например, важно, чтобы обувь хорошо сочеталась с остальным нарядом, в то время как для домашнего декора важно, чтобы декоративные подушки соответствовали общей эстетике комнаты.

Конечная мера подобия - это среднее значение глобального и локального сходства:

Функция потерь

Мы обучаем модель, используя формулировку потерь триплетов, где входными триплетами являются: (изображение сцены, позитивное изображение, негативное изображение). Мы используем потерю петли, которая поощряет, чтобы расстояние между сценой и положительным изображением продукта было меньше, чем расстояние между сценой и отрицательным изображением продукта:

Эксперименты

Мы сравнили нашу модель CTL с несколькими базовыми уровнями на трех наборах данных офлайн-оценки, как в настройках моды, так и в настройках домашнего декора. Как для двоичной классификации, так и для параметров точности Top-K, мы обнаружили, что наша модель CTL постоянно превосходит базовые показатели.

Бинарная классификация:

Интересно отметить, что прямое использование функций ResNet50 для задачи CTL не лучше, чем случайный случай. Это говорит о том, что визуальная совместимость отличается от визуального сходства, и поэтому необходимо изучать понятие совместимости на основе данных.

Точность Top-K:

Качественные результаты

Вот рекомендации, которые модель CTL дает для нескольких изображений в тестовом наборе:

Обратите внимание, что полные сцены и (достоверные) изображения продуктов предназначены только для демонстрации и не являются исходными данными для нашей системы.

Качественно генерируемые продукты совместимы со сценами. Модель научилась предлагать продукты, которые не только визуально похожи на основную реальность (например, тот же цвет), но также и другие, имеющие тот же стиль (например, минималистский).

Карты внимания

Вот визуализация карт внимания, которые модель CTL генерирует на изображениях тестовой сцены:

Столбец A - это наша карта внимания, а столбец S - результат работы универсального детектора заметных объектов DeepSaliency.

В сфере моды наша модель учится сосредотачиваться на одежде объекта, рекомендуя дополнения. Напротив, карты внимания в области дизайна интерьера более расплывчаты и сосредоточены на многих объектах, а не на одном предмете. Это говорит о том, что модель учитывает общую эстетику комнаты, рекомендуя дополнительные продукты, а не сосредотачивается на одном конкретном объекте в комнате.

Резюме

«Завершите образ» - это новый подход к выполнению визуальных дополнений с использованием богатого контекста из изображений сцены для предоставления персонализированных рекомендаций. Этот проект - одна из многих интересных проблем в области визуального поиска, над которой работает команда Visual Search в Pinterest. Мы продолжим работать над улучшением рекомендаций в Pinterest, используя новейшие технологии визуального поиска.

Благодарности

Эта работа была сделана в сотрудничестве с Ван-Ченг Каном, когда он был аспирантом по визуальному поиску в Pinterest. Мы хотели бы поблагодарить Джулиана Маколи, Юре Лесковца и Чарльза Розенберга за их руководство во время проекта.

Кроме того, мы хотели бы поблагодарить Ruining He, Zhengqin Li, Larkin Brown, Zhefei Yu, Kaifeng Chen, Jen Chan, Seth Park, Aimee Rancer, Andrew Zhai, Bo Zhao, Ruimin Zhu, Cindy Zhang, Jean Yang, Mengchao Чжун, Майкл Фенг, Дмитрий Кислюк и Чен Чен за помощь в работе.