В мире существует огромное количество визуальной информации. Самая актуальная задача найти именно то, что вам нужно. Вместо поиска изображений Google существует множество конкретных задач с ограниченным количеством типов объектов по тегированию и индексации изображений.

Давайте рассмотрим пример использования технологий компьютерного зрения для обнаружения свадебных аксессуаров и классифицируем их, предоставив информацию о различных характеристиках аксессуаров, представленных в таблице ниже.

Технология

Первый шаг этого проекта - разметка данных. Заказчик предоставил набор свадебных фотографий без маркировки. И для этого мы использовали сервис Amazon MTurk.

Пайплайн Amazon состоит из:

  1. HTML-шаблон, который рабочие использовали для рисования ограничительной рамки и выбора метки.
  2. Скрипт Python, который проверяет схожесть меток, утверждает или отклоняет присвоение.
  3. Скрипт Python, который генерирует правильную маркировку для обучения нейронной сети.

Вторым шагом было обучение нейронной сети для определения категорий. Мы протестировали несколько архитектур нейронных сетей, такие как MobileNet, NasNet, ResNet, YOLO, чтобы найти наилучшее соотношение точности / скорости. Наконец, нейронная сеть YOLOv2 была обучена на помеченном наборе данных.

Третий шаг - обучить ансамбль моделей классифицировать обнаруженные категории по тегам. Мы использовали предварительно обученные модели vgg16 PyTorch, чтобы обучить их на помеченном наборе данных.

Продемонстрированный подход может быть использован в электронной коммерции для автоматизации добавления тегов к изображениям. Это применимо также для быстрого поиска товаров с похожими характеристиками.

Первоначально опубликовано на www.quantumobile.com 3 января 2018 г.