Это введение в「Pytorch для подписи изображений」, модель машинного обучения, которую можно использовать с ailia SDK. Вы можете легко использовать эту модель для создания приложений ИИ с помощью ailia SDK, а также многих других готовых к использованию AIlia MODELS.
Обзор
Image Captioning Pytorch – это модель машинного обучения, создающая текст, описывающий, что видно на входном изображении. Классификация изображений состоит в классификации входного изображения с использованием предопределенных меток, тогда как Подпись к изображению состоит в описании содержимого изображения с использованием естественного языка.
Вот подпись к выходному изображению.
жираф и зебра стоят в поле (модель FC)
группа зебр и жираф в поле (FC + RL + SelfCritical model)
группа зебр и жираф стоят на грунтовой дороге (FC+RL+новая модель SelfCritical)
Pytorch с субтитрами к изображениям был реализован на основе следующей статьи.
Архитектура
Существует два подхода к подписи к изображениям: Сверху вниз и Снизу вверх.
В подходе TopDown подписи генерируются из векторов признаков, вычисленных с использованием магистральной сети классификации изображений, такой как ResNet50.
В подходе BottomUp заголовки генерируются из векторов признаков, вычисленных с помощью магистральной сети обнаружения объектов, такой как Faster R-CNN.
Подпись к изображению Pytorch использует подход TopDown, который состоит из кодировщика для вычисления вектора признаков и декодера для вывести заголовок. Кодер использует ResNet101 и выводит вектор признаков размером 2048, а декодер использует LSTM для создания последовательности слов.
Обучение с подкреплением (RL) традиционно предлагалось в качестве меры противодействия предвзятости и служит основой для изучения субтитров к изображениям. Также предлагается обучение самокритической последовательности (SCST), которое повышает стабильность обучения с подкреплением и обеспечивает максимальную точность.
Image Captioning Pytorch использует улучшенную версию Self Critical, которая называется new Self Critical.
Этот «новый самокритичный» заимствован из «Вариационного вывода для целей Монте-Карло». Единственным отличием от оригинального самокритичного является определение базовой линии.
В исходном самокритическом исходном уровне базовым показателем является результат жадного декодирования. В новой самокритичной базовой линии является средний балл других образцов (это требует, чтобы модель генерировала несколько образцов для каждого изображения).
Наборы обучающих данных
Подписи к изображениям Pytorch был обучен работе с наборами данных MSCOCOи Flickr 30 000.
Подпись к изображению Точность Pytorch
Измерения точности представлены в MODEL_ZOO.md
использование
Используйте следующую команду, чтобы использовать Image Captioning Pytorch для создания подписей к изображениям из видеопотока с веб-камеры.
$ python3 image_captioning_pytorch.py -v 0
Модели FC
, FC+RL+SelfCritical
и FC+RL+NewSelfCritical
можно выбрать, указав соответственно fc
, fc_rl
и fc_nsc
в опции модели.
Pytorch с субтитрами к изображениям доступен с ailia SDK 1.2.5 или новее.
Топор Инк. разработал ailia SDK, который обеспечивает кросс-платформенный быстрый вывод на основе графического процессора.
ax Inc. предоставляет широкий спектр услуг от консалтинга и создания моделей до разработки приложений и SDK на основе ИИ. Не стесняйтесь связаться с нами для любого запроса.