Повышение квалификации в Google Cloud — Часть 8 — Создание моделей субтитров к изображениям: обзор

18 мая 2023 года Google Cloud выпустила бесплатное обучение генеративному искусственному интеллекту. Эта серия сообщений в блоге представляет собой мои заметки по каждому из модулей. Более подробную информацию см. в разделе Анонс этой публикации в блоге.

Цель — создать и обучить модель, которая сможет генерировать текстовые подписи на основе изображений.

Мы можем использовать модель кодировщика-декодера, которая обрабатывает как изображения, так и текст.
Первые изображения передаются кодировщику, который извлекает информацию из изображений и создает несколько векторов признаков.
Кодер может использовать любую магистраль изображения, например ResNet, EfficientNet или Vision Transformer.
Во-вторых, векторы передаются в декодер, который создает подписи путем генерации слов.

Декодер сложный.
Он получает слова одно за другим от кодера и пытается предсказать следующие слова.
Существует множество вариантов конструкции этого декодера.

Первый уровень внедрения создает представления слов, которые передаются на уровень GRU.
Уровень GRU — это вариант рекуррентной нейронной сети (RNN).
RNN принимают входные данные, обновляют свое внутреннее состояние и генерируют выходные данные.
Последовательные зависимости, как и предыдущие слова, сохраняются.

Вывод GRU поступает на уровень внимания, который смешивает текстовую и графическую информацию.
TensorFlow Keras имеет предопределенные слои и несколько реализаций, которые можно менять местами и использовать практически одинаково.
Он может рассчитать оценку внимания, смешивая как изображение, так и текстовую информацию.

Последние компоненты — «Добавить слой» и «Нормализация слоя».
«Добавить слой» добавляет два вектора одинаковой формы.
В этом примере gru_output передается на уровень внимания и слой добавления.
Два потока объединяются в окне «Добавить слой».
Такая архитектура называется «пропуском соединения» — это очень популярный шаблон проектирования глубоких нейронных сетей со времен ResNet.

Есть три шага:

Сгенерируйте исходное состояние GRU и создайте стартовый токен, специальный токен, который означает начало предложения.
Передайте входное изображение кодировщику и извлеките вектор признаков.
Передайте вектор в декодер и сгенерируйте слова заголовка в цикле for до тех пор, пока он не вернет токен «end», специальный токен, который означает конец последовательности, или пока он не достигнет MAX_CAPTION_LENGTH, который является просто гиперпараметром.

Подпись к изображению — это использование модели для создания подписи, описывающей изображение.
Модель подписей к изображениям может быть построена с использованием архитектуры кодера-декодера.
Кодер извлекает признаки из изображения.
Декодер берет функции кодера и генерирует подпись.
Декодер может быть реализован с использованием рекуррентной нейронной сети (RNN) или преобразователя.
Модель можно обучить на наборе данных изображений и подписей.
После обучения модели ее можно использовать для создания подписей к новым изображениям.