Подписи к изображениям Pytorch: модель машинного обучения для описания изображений

Это введение в「Pytorch для подписи изображений」, модель машинного обучения, которую можно использовать с ailia SDK. Вы можете легко использовать эту модель для создания приложений ИИ с помощью ailia SDK, а также многих других готовых к использованию AIlia MODELS.

Обзор

Image Captioning Pytorch – это модель машинного обучения, создающая текст, описывающий, что видно на входном изображении. Классификация изображений состоит в классификации входного изображения с использованием предопределенных меток, тогда как Подпись к изображению состоит в описании содержимого изображения с использованием естественного языка.

Вот подпись к выходному изображению.

жираф и зебра стоят в поле (модель FC)

группа зебр и жираф в поле (FC + RL + SelfCritical model)

группа зебр и жираф стоят на грунтовой дороге (FC+RL+новая модель SelfCritical)

ruotianluo/ImageCaptioning.pytorch
Это кодовая база для исследования субтитров к изображениям. Он поддерживает: Простой демонстрационный блокнот для совместной работы доступен здесь Python 3…github.com

Pytorch с субтитрами к изображениям был реализован на основе следующей статьи.

Обучение самокритичной последовательности для создания подписей к изображениям
Недавно было показано, что методы политик-градиентного обучения с подкреплением можно использовать для глубокого обучения…arxiv.org

Архитектура

Существует два подхода к подписи к изображениям: Сверху вниз и Снизу вверх.

В подходе TopDown подписи генерируются из векторов признаков, вычисленных с использованием магистральной сети классификации изображений, такой как ResNet50.

В подходе BottomUp заголовки генерируются из векторов признаков, вычисленных с помощью магистральной сети обнаружения объектов, такой как Faster R-CNN.

Подпись к изображению Pytorch использует подход TopDown, который состоит из кодировщика для вычисления вектора признаков и декодера для вывести заголовок. Кодер использует ResNet101 и выводит вектор признаков размером 2048, а декодер использует LSTM для создания последовательности слов.

Обучение с подкреплением (RL) традиционно предлагалось в качестве меры противодействия предвзятости и служит основой для изучения субтитров к изображениям. Также предлагается обучение самокритической последовательности (SCST), которое повышает стабильность обучения с подкреплением и обеспечивает максимальную точность.

Image Captioning Pytorch использует улучшенную версию Self Critical, которая называется new Self Critical.

Этот «новый самокритичный» заимствован из «Вариационного вывода для целей Монте-Карло». Единственным отличием от оригинального самокритичного является определение базовой линии.

В исходном самокритическом исходном уровне базовым показателем является результат жадного декодирования. В новой самокритичной базовой линии является средний балл других образцов (это требует, чтобы модель генерировала несколько образцов для каждого изображения).

ruotianluo/ImageCaptioning.pytorch
Текущий ансамбль поддерживает только модели, являющиеся подклассом AttModel. Вот пример скрипта для запуска ансамбля…github.com

Наборы обучающих данных

Подписи к изображениям Pytorch был обучен работе с наборами данных MSCOCOи Flickr 30 000.

COCO — Общие объекты в контексте
Редактировать описаниеcocodataset.org

BryanPlummer/flickr30k_entities
Если вы используете наш набор данных, процитируйте нашу статью: @article{flickrentitiesijcv, title={Flickr30K Entities: Collecting…github.com

Подпись к изображению Точность Pytorch

Измерения точности представлены в MODEL_ZOO.md

использование

Используйте следующую команду, чтобы использовать Image Captioning Pytorch для создания подписей к изображениям из видеопотока с веб-камеры.

$ python3 image_captioning_pytorch.py -v 0

Модели FC, FC+RL+SelfCritical и FC+RL+NewSelfCritical можно выбрать, указав соответственно fc, fc_rl и fc_nsc в опции модели.

Pytorch с субтитрами к изображениям доступен с ailia SDK 1.2.5 или новее.

axinc-ai/ailia-models
(Изображение взято с http://images.cocodataset.org/train2017/000000505539.jpg) жираф и зебра стоят в поле …github.com

Топор Инк. разработал ailia SDK, который обеспечивает кросс-платформенный быстрый вывод на основе графического процессора.

ax Inc. предоставляет широкий спектр услуг от консалтинга и создания моделей до разработки приложений и SDK на основе ИИ. Не стесняйтесь связаться с нами для любого запроса.