Технологии, применяемые для преобразования последовательности пикселей, изображенных на изображении, в слова с помощью искусственного интеллекта, уже не такие сырые, как пять или более лет назад. Более высокая производительность, точность и надежность делают возможным плавное и эффективное добавление субтитров к изображениям в различных областях — от социальных сетей до электронной коммерции. Автоматическое создание тегов соответствует загруженной фотографии. Эта технология может помочь слепым людям познавать окружающий мир.

В этой статье рассматриваются варианты использования технологии субтитров к изображениям, ее базовая структура, преимущества и недостатки. Кроме того, мы развертываем модель, способную создать осмысленное описание того, что отображается на входном изображении.

В качестве цели языка видения создание субтитров к изображениям может быть решено с помощью компьютерного зрения и НЛП. Часть ИИ использует CNN (сверточные нейронные сети) и RNN (рекуррентные нейронные сети) или любую другую подходящую модель для достижения цели.

Прежде чем перейти к техническим деталям, давайте выясним, каково положение субтитров к изображениям.

Варианты использования тегов и описаний изображений на основе ИИ

Создание субтитров к изображениям — это одна из основных возможностей компьютерного зрения, с помощью которой можно предоставлять широкий спектр услуг, — сказал Сюэдун Хуан (Xuedong Huang), технический сотрудник Microsoft и технический директор Azure AI Cognitive Services в Редмонде, штат Вашингтон.

Он определенно прав, так как уже существует широкий спектр областей для технологии субтитров к изображениям, а именно:

Маркировка изображений для электронной коммерции, сервисов обмена фотографиями и онлайн-каталогов

При этом осуществляется автоматическое создание тегов по фото. Например, это может упростить жизнь пользователям, когда они загружают изображение в онлайн-каталог. В этом случае ИИ распознает изображение и генерирует атрибуты — это могут быть подписи, категории или описания. Технология также может определять тип товара, материал, цвет, рисунок и посадку одежды для интернет-магазинов.

В то же время субтитры к изображениям могут быть реализованы службой обмена фотографиями или любым онлайн-каталогом для создания автоматического осмысленного описания изображения в целях SEO или категоризации. Кроме того, подписи позволяют проверить, соответствует ли изображение правилам платформы, на которой оно будет опубликовано. Здесь он служит альтернативой категоризации CNN и помогает увеличить трафик и доход.

Примечание. Создание описаний для видео — гораздо более сложная задача. Тем не менее, современное состояние технологий уже позволяет это сделать.

Автоматические аннотации изображений для слепых

Чтобы разработать такое решение, нам нужно преобразовать картинку в текст, а затем в голос. Это два хорошо известных применения технологии глубокого обучения.

Приложение под названием Seeing AI, разработанное Microsoft, позволяет людям с проблемами зрения видеть окружающий мир с помощью смартфонов. Программа умеет читать текст при наведении на него камеры и выдает звуковые подсказки. Он может распознавать как печатный, так и рукописный текст, а также идентифицировать предметы и людей.

Google также представил инструмент, который может создавать текстовое описание для изображения, позволяя слепым или людям с проблемами зрения понять контекст изображения или графики. Этот инструмент машинного обучения состоит из нескольких слоев. Первая модель распознает текст и рукописные цифры на изображении. Затем другая модель распознает простые объекты окружающего мира, такие как автомобили, деревья, животные и т. д. И третий слой — это продвинутая модель, способная выяснить основную мысль в полноценном текстовом описании.

Подписи к изображениям AI для социальных сетей

Подпись к изображению, созданная с помощью инструмента на основе ИИ, уже доступна для Facebook и Instagram. Кроме того, модель все время умнеет, учится распознавать новые объекты, действия и закономерности.

Facebook создал систему, способную создавать альтернативные текстовые описания почти пять лет назад. В настоящее время он стал более точным. Раньше она описывала изображение, используя общие слова, но теперь эта система может генерировать подробное описание.

Идентификация логотипа с помощью ИИ

Технология подписей к изображениям также внедряется вместе с другими технологиями искусственного интеллекта. Например, DeepLogo — это нейронная сеть, основанная на TensorFlow Object Detection API. И он может распознавать логотипы. Название идентифицированного логотипа появляется в качестве подписи к изображению.

Исследование моделей глубокого обучения для создания подписей к изображениям

Имея в виду возможные варианты использования, мы применили модель, которая создает осмысленное текстовое описание для изображений. Например, подпись может описывать действие и объекты, которые являются основными объектами на каждом изображении. Для обучения мы использовали набор данных Microsoft COCO 2014.

Набор данных COCO — это крупномасштабный набор данных для обнаружения, сегментации и подписи объектов. Он содержит около 1,5 миллиона различных объектов, разделенных на 80 категорий. Каждое изображение снабжено пятью подписями, созданными человеком.

Мы применили разделы обучения, проверки и тестирования Андрея Карпати для разделения наборов данных на части обучения, проверки и тестирования. Кроме того, нам нужны были такие показатели, как BLEU, ROUGE, METEOR, CIDEr, SPICE, для оценки результатов.

Сравнение моделей машинного обучения для подписей к изображениям

Как правило, базовая архитектура для подписей к изображениям кодирует ввод в фиксированную форму и декодирует его слово за словом в последовательность.

Кодер кодирует входное изображение с тремя цветовыми каналами в меньшее изображение с «выученными» каналами. Это закодированное изображение меньшего размера является сводным представлением всего полезного в исходном изображении. Для кодирования может применяться любая архитектура CNN. Кроме того, мы можем использовать трансферное обучение для части кодировщика.

Декодер просматривает закодированное изображение и генерирует подпись слово за словом. Затем каждое предсказанное слово используется для генерации следующего слова.

Прежде чем двигаться дальше, взгляните на то, что мы получили в результате создания и тестирования модели с помощью модели преобразователя Meshed-Memory.

Подписи к изображениям на основе ИИ теперь всегда точны

Мы также изучили примеры, которые привели к ошибкам. Причин появления ошибок несколько. Наиболее распространенные ошибки связаны с плохим качеством изображения и отсутствием определенных элементов в исходном наборе данных. Модель обучалась на наборе данных с общими картинками, поэтому допускает ошибки в случаях, когда не знает содержания или не может его правильно идентифицировать. Точно так же работает человеческий мозг.

Вот еще один случай, чтобы проиллюстрировать, как работают нейронные сети. В наборе данных, используемом для обучения модели, не было тигров, поэтому она не может идентифицировать тигров. Вместо этого ИИ выбрал ближайший известный ему объект — это точно так же, как наш мозг имеет дело с неизвестным.

Модель внимания Up-Down для подписей к изображениям

Это первая модель для сравнения. Механизм «Вверх-вниз» сочетает в себе механизмы внимания «снизу-вверх» и «сверху-вниз».

Более быстрый R-CNN используется для установления связи между задачами обнаружения объектов и подписями к изображениям. Модель предложения региона предварительно обучена на наборах данных обнаружения объектов благодаря использованию междоменных знаний. Более того, в отличие от некоторых других механизмов внимания, обе модели используют однопроходное внимание с механизмом Up-Down.

Более быстрая R-CNN (рис. 5а) используется для извлечения признаков изображения. Faster R-CNN — это модель обнаружения объектов, предназначенная для идентификации объектов, принадлежащих к определенным классам, и их локализации с помощью ограничительных рамок. Быстрее R-CNN обнаруживает объекты в два этапа.

На первом этапе,описываемом как региональная сеть предложений (RPN), прогнозируются предложения объектов. Используя жадное немаксимальное подавление с порогом пересечения над объединением (IoU), предложения верхнего блока выбираются в качестве входных данных для второго этапа.

На втором этапе объединение областей интереса (RoI) используется для извлечения небольшой карты характеристик (например, 14 × 14) для каждого предложения коробки. Затем эти карты объектов объединяются в пакеты в качестве входных данных для конечных слоев CNN. Таким образом, конечный результат модели состоит из распределения softmax по меткам классов и уточнений ограничительной рамки для каждого класса для каждого предложения рамки. Схема взята с официального постера.

Это LSTM с добавленным механизмом внимания вверх-вниз. Учитывая набор характеристик изображения V, предлагаемая модель подписей использует «мягкий» нисходящий механизм внимания для взвешивания каждой функции во время создания подписей. На высоком уровне модель субтитров состоит из двух слоев LSTM.

Модель преобразователя Meshed-Memory для подписи к изображениям

Еще одна модель, которую мы взяли для решения задачи подписи к изображению, — Meshed-Memory Transformer. Он состоит из частей кодера и декодера. Оба они состоят из стопок внимательных слоев. Кодер также включает уровни прямой связи, а декодер имеет обучаемый механизм с взвешиванием.

Области изображения кодируются многоуровневым способом. Модель учитывает как низкоуровневые, так и высокоуровневые отношения. Полученные знания кодируются в виде векторов памяти. Слои частей кодировщика и декодера соединены в структуру, подобную сетке. Декодер считывает выходные данные каждого слоя кодирования и выполняет автоматическое внимание к словам и перекрестное внимание ко всем слоям кодирования после того, как результаты модулируются и суммируются.

Таким образом, модель может использовать не только визуальный контент изображения, но и предварительные знания кодировщика. Схемы взяты из официальной бумаги.

Сравнение двух моделей подписей к изображениям

Основываясь на нашем исследовании, мы можем сравнить модель Up-down и модель M2transform, поскольку они были обучены на одних и тех же данных. В таблице ниже представлены сводные данные по обеим моделям.

Подписи к изображениям — анализ результатов и перспективы на будущее

Обе использованные модели показали достаточно хорошие результаты. С их помощью мы можем создавать содержательные подписи для большинства изображений из нашего набора данных. Более того, благодаря функции предварительного извлечения с помощью Faster-RCNN, предварительно обученной на огромном наборе данных Visual Genome, модель способна распознавать многие объекты и действия из повседневной жизни людей, а значит, правильно их описывать.

Так в чем же разница?

Модель Updown быстрее и легче, чем M2Transformer. Причина в том, что M2Transformer использует больше методов, таких как дополнительные («сетчатые») соединения между кодировщиком и декодером и векторы памяти для запоминания прошлого опыта. Также в этих моделях используются разные механизмы внимания.

Внимание вверх-вниз может выполняться за один проход, в то время как многоголовое внимание, используемое в M2Transformer, должно выполняться параллельно несколько раз. Однако по полученным метрикам M2Transormer добился лучших результатов. С его помощью мы можем генерировать более правильные и разнообразные подписи. Прогнозы M2Transformer содержат меньше неточностей в описании как для картинок из набора данных, так и для некоторых других связанных изображений. Поэтому он лучше выполняет основную задачу.

Мы сравнили две модели, но есть и другие подходы к задаче подписи к изображениям. Можно менять декодер и кодировщик, использовать различные векторы слов, комбинировать наборы данных и применять трансферное обучение.

Модель может быть улучшена для достижения лучших результатов, подходящих для конкретного бизнеса, либо в качестве приложения для людей с проблемами зрения, либо в качестве дополнительных инструментов, встроенных в платформы электронной коммерции. Для достижения этой цели модель должна быть обучена на соответствующих наборах данных. Например, чтобы система правильно описывала одежду, лучше проводить обучение на наборах данных с одеждой.

Написано Дианой Малик, инженером по искусственному интеллекту в MobiDev.

Статья полностью опубликована на https://mobidev.biz и основана на исследованиях технологии MobiDev.