18 мая 2023 года Google Cloud выпустила бесплатное обучение генеративному искусственному интеллекту. Эта серия сообщений в блоге представляет собой мои заметки по каждому из модулей. Более подробную информацию см. в разделе Анонс этой публикации в блоге.
Источник:https://www.cloudskillsboost.google/course_templates/542
- Цель — создать и обучить модель, которая сможет генерировать текстовые подписи на основе изображений.
- Мы можем использовать модель кодировщика-декодера, которая обрабатывает как изображения, так и текст.
- Первые изображения передаются кодировщику, который извлекает информацию из изображений и создает несколько векторов признаков.
- Кодер может использовать любую магистраль изображения, например ResNet, EfficientNet или Vision Transformer.
- Во-вторых, векторы передаются в декодер, который создает подписи путем генерации слов.
- Декодер сложный.
- Он получает слова одно за другим от кодера и пытается предсказать следующие слова.
- Существует множество вариантов конструкции этого декодера.
- Первый уровень внедрения создает представления слов, которые передаются на уровень GRU.
- Уровень GRU — это вариант рекуррентной нейронной сети (RNN).
- RNN принимают входные данные, обновляют свое внутреннее состояние и генерируют выходные данные.
- Последовательные зависимости, как и предыдущие слова, сохраняются.
- Вывод GRU поступает на уровень внимания, который смешивает текстовую и графическую информацию.
- TensorFlow Keras имеет предопределенные слои и несколько реализаций, которые можно менять местами и использовать практически одинаково.
- Он может рассчитать оценку внимания, смешивая как изображение, так и текстовую информацию.
- Последние компоненты — «Добавить слой» и «Нормализация слоя».
- «Добавить слой» добавляет два вектора одинаковой формы.
- В этом примере gru_output передается на уровень внимания и слой добавления.
- Два потока объединяются в окне «Добавить слой».
- Такая архитектура называется «пропуском соединения» — это очень популярный шаблон проектирования глубоких нейронных сетей со времен ResNet.
- На этапе вывода создаются подписи к изображениям.
Есть три шага:
- Сгенерируйте исходное состояние GRU и создайте стартовый токен, специальный токен, который означает начало предложения.
- Передайте входное изображение кодировщику и извлеките вектор признаков.
- Передайте вектор в декодер и сгенерируйте слова заголовка в цикле for до тех пор, пока он не вернет токен «end», специальный токен, который означает конец последовательности, или пока он не достигнет MAX_CAPTION_LENGTH, который является просто гиперпараметром.
Краткое содержание
- Подпись к изображению — это использование модели для создания подписи, описывающей изображение.
- Модель подписей к изображениям может быть построена с использованием архитектуры кодера-декодера.
- Кодер извлекает признаки из изображения.
- Декодер берет функции кодера и генерирует подпись.
- Декодер может быть реализован с использованием рекуррентной нейронной сети (RNN) или преобразователя.
- Модель можно обучить на наборе данных изображений и подписей.
- После обучения модели ее можно использовать для создания подписей к новым изображениям.
Продолжить Часть 9 — Введение в Generative AI Studio