Огромные 56% предприятий используют компьютерное зрение сегодня, а 95% используют или планируют использовать компьютерное зрение в следующем году. Эта точка данных говорит нам, насколько важно компьютерное зрение для процветающего предприятия. Но что такое визуальный поиск и как эта технология встраивается в привлекательное ценностное предложение для клиентов? Ниже мы рассмотрим эту постоянно растущую область ИИ.

Как ты сюда попал?

Компьютерное зрение и подмножество визуального поиска были темой исследования на протяжении более чем одного поколения, но только в 1990-х годах начали появляться реальные пригодные для использования модели и их приложения. С тех пор рост был обусловлен тремя значительными достижениями.

1. Чистая вычислительная мощность машин теперь может быть развернута по запросу в масштабируемых облачных сервисах.

2. Параллелизуемые графические процессоры NVIDIA для глубокого обучения.

3. Создание больших помеченных наборов многомерных визуальных данных, таких как ImageNet и Pascal.

Это предотвратило множество случаев переобучения (подгонки ваших выводов к набору данных и объявления победы), поскольку одна только сеть изображений содержит 14 миллионов изображений, помеченных вручную!

Что произошло дальше?

Благодаря аппаратному обеспечению, снижающему вычислительные затраты, примерно в 2012–2015 годах начали появляться сверточные нейронные сети (CNN). Это был прорыв, необходимый для обучения компьютера распознаванию объекта. CNN состоит из нескольких слоев:

1. Сверточный слой, который можно рассматривать как способ сканирования блоков пикселей и создания карты характеристик изображения.

2.Слой максимального объединения, который сообщает вам относительное положение объекта и избавляется от менее важной информации, чтобы сделать модель быстрее.

3. Полностью связанные слои, которые присваивают функциям различные веса и вероятности.

В конце концов, сеть дает вам вероятность того, что выбранное вами изображение соответствует другому изображению. Если вероятность достаточно высока, ответ будет утвердительным. Эта захватывающая способность смогла открыть целый ряд новых возможностей.

Как это используется в электронной коммерции?

Визуальный поиск может охватывать целый ряд действий, но мы можем обобщить основные усилия по трем основным категориям:

Обработка изображения — улучшение изображения для просмотра или его изменение для дальнейшего использования. Строго говоря, визуальный поиск.

Повествовательное описание — передовой край компьютерного зрения, который все еще находится на начальной стадии разработки. Это может включать концептуальное описание сцены или описание действия, или намерения, или поведения объекта. Именно здесь обработка естественного языка присоединяется к компьютерному зрению.

Обнаружение объектов — извлечение объекта(ов) из изображения и присвоение ему метки. Наиболее популярный способ визуального поиска. Это может включать интерпретацию 3D сцены.

Обнаружение объектов: самый популярный инструмент для электронной коммерции

Исследование визуального поиска породило несколько вариантов архитектуры, предназначенной для поиска объекта. Некоторые из них более точны, чем другие, а некоторые быстрее. Компромисс между скоростью и точностью является важным решением для любого решения.

Если вы страховая компания, пытающаяся определить, является ли повреждение автомобиля значительным, или если вы пытаетесь определить вероятность мошенничества для ранее поданного требования, вы будете использовать архитектуру Fast (или Faster) R-CNN. Если вас беспокоит примерное сопоставление чего-либо, например дивана или стула, вы можете попросить клиента нарисовать рамку вокруг объекта (ограничивающая рамка) и использовать архитектуру YOLO или SSD. Это менее точно и требует от пользователя активного участия в рисовании прямоугольника, но значительно быстрее.

Что делать, если у вас есть более одного продукта на изображении? Сегментация изображений показала большие перспективы для этого. Сегментация изображения — это процесс идентификации пикселей в значимых или похожих по восприятию областях. В настоящее время это используется как для изображений, так и для видео. Этот метод называется Mask-R-CNN и является модификацией архитектуры Faster R-CNN. Этот метод добавляет в сеть Faster R-CNN отдельную «голову» маски. Маска «голова» является дополнительной CNN (для сканирования дополнительных функций, таких как края) и выводит маску m x m (серию действительно узких квадратов внутри и вокруг объекта) для каждой области.

Достижения пошли так быстро, что теперь это доступно и для видео. Несмотря на то, что это сразу узнаваемый продукт для использования в автономных транспортных средствах, он может использоваться магазинами для идентификации товаров на полках или складах для анализа и оптимизации используемого пространства. Пример, который мы создали, показан ниже:

Что ждет будущее: бесконечные вариации

Есть много приложений визуального поиска, которые еще предстоит изучить. Хотя всего несколько лет назад люди думали, что автомобили не могут быть самоуправляемыми, мы ближе, чем когда-либо, к этой реальности. Способность идентифицировать объекты в режиме реального времени достаточно развита, чтобы мы могли представить себе, что эта технология сможет направлять общественные автобусы по фиксированным маршрутам с заранее установленными безопасными скоростями. При этом страховые компании должны будут просчитать безопасность этих новых алгоритмов, открывающих новые рабочие места там, где их раньше не было.

В медицине большая часть шумихи и внимания в настоящее время связана с обнаружением аномалий в тканях. Визуальный поиск позволит врачам находить новые закономерности в электрической активности нейронов головного мозга и наблюдать за незначительными изменениями в походке и движениях спортсменов, чтобы определить оптимальные результаты. Некоторые продукты, собирающие данные, такие как Hawk-eye от Sony, начнут использовать для более сложной аналитики машинного обучения.

Более прозаично визуальный поиск был использован для обеспечения более точного обнаружения объектов в магазинах. Разнообразие и разнообразие товаров во многих интернет-магазинах ошеломляет. Говорят, что только на Etsy выставлено на продажу более 60 миллионов объектов. Поиск того, что вы хотите на платформе такого типа, может быть сложной задачей, поскольку пользователи могут плохо общаться на английском языке, что делает поиск по ключевым словам бесполезным.

Описания играют решающую роль в продаже продукта (о чем мы поговорим в будущем блоге), но путь к тому моменту, когда вы сможете описать свой продукт, в основном визуален, и это может помочь повысить вовлеченность клиентов. Поскольку клиенты и покупатели в значительной степени зависят от телефонов, а их деятельность больше связана с прокруткой изображений, необходимость связать ваш продукт с тем, что просматривает клиент, имеет решающее значение.

Показ похожих, но не идентичных продуктов — это один из способов сделать рекламу лучше, поскольку алгоритмы учатся сопоставлять то, что лучше всего в вашем каталоге, с тем, что интересует клиентов.

Готовы узнать больше?

Свяжитесь с нашей командой экспертов, чтобы узнать, как мы можем помочь вам внедрить решения Visual AI для вашего бизнеса.

www.delvify.ai