Обнаружение бренда / логотипа

TIKI - это надежная платформа электронной коммерции, где тысячи продавцов продают миллионы товаров. Мы обязуемся предоставлять услуги высочайшего качества и только оригинальные товары. Но с каждым днем мы растем все быстрее и быстрее… и не можем масштабироваться без поддержки машин. Мы должны создать процесс, объединяющий людей и машины для проверки наших продуктов. Обнаружение бренда / логотипа продукта - это один из шагов, который помогает нам предотвратить подделку продуктов. Мы также впервые применяем искусственный интеллект / машинное обучение для решения проблемы масштабирования.

1. Введение в проблему

Обнаружение бренда / логотипа - это автоматический метод проверки, который может частично освободить человеческую силу от проверки вручную. Каждый раз, когда какой-либо продавец отправляет запрос, связанные изображения пересылаются в нашу систему проверки (далее называемую ботом), и наш бот должен иметь возможность вернуть предполагаемый бренд.

Основная роль бота - предоставлять своевременную информацию для отклонения нарушенных запросов. Согласно нашим причинам отклонения, нарушение логотипа определяется как: «Hình ảnh có chứa logo thương hiệu không khớp với thương hiệu của sn phẩm».

2. Технический подход

Рисунок 1. Схема обнаружения.

Эта проблема может быть решена несколькими подходами. На первый взгляд, мы потенциально можем отнести эту проблему к задаче классификации, где вход - это все изображение, а выход - его соответствующая марка. К сожалению, это решение не работает на практике, потому что товары разных брендов практически не различимы, например очки, обувь.

Что на самом деле отличает товары разных брендов? Это логотип бренда !!! Таким образом, проблема может быть легко перенесена на обнаружение и прогнозирование логотипа. Наша схема обнаружения включает два этапа:

Этап локализации. Мы обучаем даркнет, который является известной реализацией архитектуры YOLO v3. Darknet может одновременно локализовать потенциальную область логотипа и предсказать его бренд. Хотя даркнет хорош в задаче локализации, он демонстрирует неудовлетворительную производительность в задаче прогнозирования. Поэтому мы повторно используем его результат локализации, но не полагаемся на его прогнозируемый бренд.

Этап прогнозирования. Мы обучаем Resnet (остаточная сеть) результатам локализации Darknet, чтобы получать более точные результаты классификации.

3. Описания наборов данных

В набор рассматриваемых семи брендов входят: Apple, Adidas, Lego, Nike, Kingston, Calvin Klein, Bosch. Наборы данных, используемые для обучения Darknet и Resnet, описаны ниже:

Чтобы контролировать процесс обучения, мы разделили каждый обучающий набор на подмножества для обучения и проверки. В случае Darknet, 20 изображений / бренд → 140 изображений в токале используются в качестве набора для проверки. В случае Resnet 10% набора данных → всего 1403 изображения используются в качестве набора для проверки.

4. Методы оценки

Поскольку Darknet и Resnet выполняют разные задачи, их оценка требует немного разных показателей, а именно:

Оценка даркнета

Оценка Darknet + Resnet

5. Производительность даркнета

Мы проверяем Darknet на проверочном наборе, включающем 20 изображений на бренд → 140 изображений в общей сложности. Darknet достигает 91,73% mAP при пороге долговых обязательств 0,5. Интуитивно говоря, 91,73% областей логотипа локализованы и правильно спрогнозированы (правильно здесь означает, что более 50% области истинного ограничивающего прямоугольника локализованы. и присвоено правильному бренду). Вот несколько хороших примеров:

Хотя на данный момент мы ориентируемся только на семь брендов, мы ожидаем, что Darknet будет надежным в сценарии открытого набора, где появляются неизвестные бренды. По этой причине мы дополнительно тестируем Darknet на 10000 неизвестных изображениях (без логотипа или логотипа за пределами набора из семи брендов) в производственной среде. В этом наборе Darknet делает ошибку 2,18%, присваивая 218 неизвестных изображений семи брендам. Некоторые плохие примеры показаны ниже.

Эффективность Darknet на 11 313 неизвестных изображениях и 1844 изображениях, принадлежащих семи брендам, показана ниже.

Средняя точность, отзывчивость и оценка F1 составляют 88,70%, 93,02% и 90,62% соответственно.

6. Производительность Darknet + Resnet (всей системы).

Повторяя ту же оценку на 10 000 неизвестных изображений на производстве, вся система Darknet + Resnet снижает ошибку Darknet с 2,18% до 0,26%. Это означает, что только 26 изображений из 10 000 ошибочно отнесены к семи брендам.

Наконец, мы вычисляем производительность всей системы на смеси из 11313 неизвестных изображений и 1844 изображений, принадлежащих семи брендам, которые показаны в следующей таблице.

Средняя точность, отзывчивость и оценка F1 составляют 95,68%, 92,27% и 94,01% соответственно. Если внимательно присмотреться к двум таблицам, можно увидеть, что комбинация Darknet + Resnet улучшает запоминание неизвестных брендов и точность семи брендов.

Следующая матрица путаницы показывает, как модели путаются между классами.

7. Эффективность производства.

Мы дополнительно исследуем эффективность всей системы на уровне запросов, а не изображений. В частности, мы хотели бы подсчитать, сколько прогнозов совпадают с человеческими решениями. Мы используем два основных правила подсчета количества правильных прогнозов, сделанных ботом, в следующих случаях:

Мы сканировали запросы за последние три месяца и сообщаем о количестве исправлений ботов в соответствии с двумя случаями «одобрены» и «отклонены», относящиеся к семи брендам на рисунке 3.

Для одобрения бот принимал очень хорошие решения по сравнению с людьми. Для отказов возможности бота довольно ограничены. Основная причина заключается в том, что логотипы известных брендов были переделаны с использованием разных стилей или материалов, а среди изображений есть несколько копий, которые бот не может обнаружить.

8. Выводы

Плюсы:

Наша система распознавания бренда, основанная на обнаружении и классификации логотипов, очень точна в задаче классификации. В частности, мы наблюдаем очень небольшую ошибку неправильной классификации.
Мы можем развернуть эту систему в качестве рекомендателя для контроля качества контента. Наша система немедленно предложит незаконные изображения для контроля качества контента, чтобы быстро отклонить их.

Минусы:

Уровень обнаружения логотипов, согласно нашему тесту, по-прежнему невелик. Продукты не относятся к семи нашим брендам, но содержат их логотипы. Некоторые изображения используются продавцами в основном для удаления логотипов. В таких случаях служба контроля качества контента принимала меры по отклонению, но наша система этого не делала, потому что логотипы повреждены.

Соавторы:

Тин Фан - доктор философии по машинному обучению / старший инженер по искусственному интеллекту

Bng Võ - инженер искусственного интеллекта