Это введение в「Pytorch для подписи изображений」, модель машинного обучения, которую можно использовать с ailia SDK. Вы можете легко использовать эту модель для создания приложений ИИ с помощью ailia SDK, а также многих других готовых к использованию AIlia MODELS.

Обзор

Image Captioning Pytorch – это модель машинного обучения, создающая текст, описывающий, что видно на входном изображении. Классификация изображений состоит в классификации входного изображения с использованием предопределенных меток, тогда как Подпись к изображению состоит в описании содержимого изображения с использованием естественного языка.

Вот подпись к выходному изображению.

жираф и зебра стоят в поле (модель FC)

группа зебр и жираф в поле (FC + RL + SelfCritical model)

группа зебр и жираф стоят на грунтовой дороге (FC+RL+новая модель SelfCritical)



Pytorch с субтитрами к изображениям был реализован на основе следующей статьи.



Архитектура

Существует два подхода к подписи к изображениям: Сверху вниз и Снизу вверх.

В подходе TopDown подписи генерируются из векторов признаков, вычисленных с использованием магистральной сети классификации изображений, такой как ResNet50.

В подходе BottomUp заголовки генерируются из векторов признаков, вычисленных с помощью магистральной сети обнаружения объектов, такой как Faster R-CNN.

Подпись к изображению Pytorch использует подход TopDown, который состоит из кодировщика для вычисления вектора признаков и декодера для вывести заголовок. Кодер использует ResNet101 и выводит вектор признаков размером 2048, а декодер использует LSTM для создания последовательности слов.

Обучение с подкреплением (RL) традиционно предлагалось в качестве меры противодействия предвзятости и служит основой для изучения субтитров к изображениям. Также предлагается обучение самокритической последовательности (SCST), которое повышает стабильность обучения с подкреплением и обеспечивает максимальную точность.

Image Captioning Pytorch использует улучшенную версию Self Critical, которая называется new Self Critical.

Этот «новый самокритичный» заимствован из «Вариационного вывода для целей Монте-Карло». Единственным отличием от оригинального самокритичного является определение базовой линии.

В исходном самокритическом исходном уровне базовым показателем является результат жадного декодирования. В новой самокритичной базовой линии является средний балл других образцов (это требует, чтобы модель генерировала несколько образцов для каждого изображения).



Наборы обучающих данных

Подписи к изображениям Pytorch был обучен работе с наборами данных MSCOCOи Flickr 30 000.





Подпись к изображению Точность Pytorch

Измерения точности представлены в MODEL_ZOO.md

использование

Используйте следующую команду, чтобы использовать Image Captioning Pytorch для создания подписей к изображениям из видеопотока с веб-камеры.

$ python3 image_captioning_pytorch.py -v 0

Модели FC, FC+RL+SelfCritical и FC+RL+NewSelfCritical можно выбрать, указав соответственно fc, fc_rl и fc_nsc в опции модели.

Pytorch с субтитрами к изображениям доступен с ailia SDK 1.2.5 или новее.



Топор Инк. разработал ailia SDK, который обеспечивает кросс-платформенный быстрый вывод на основе графического процессора.

ax Inc. предоставляет широкий спектр услуг от консалтинга и создания моделей до разработки приложений и SDK на основе ИИ. Не стесняйтесь связаться с нами для любого запроса.