18 мая 2023 года Google Cloud выпустила бесплатное обучение генеративному искусственному интеллекту. Эта серия сообщений в блоге представляет собой мои заметки по каждому из модулей. Более подробную информацию см. в разделе Анонс этой публикации в блоге.

Источник:https://www.cloudskillsboost.google/course_templates/542

  • Цель — создать и обучить модель, которая сможет генерировать текстовые подписи на основе изображений.

  • Мы можем использовать модель кодировщика-декодера, которая обрабатывает как изображения, так и текст.
  • Первые изображения передаются кодировщику, который извлекает информацию из изображений и создает несколько векторов признаков.
  • Кодер может использовать любую магистраль изображения, например ResNet, EfficientNet или Vision Transformer.
  • Во-вторых, векторы передаются в декодер, который создает подписи путем генерации слов.

  • Декодер сложный.
  • Он получает слова одно за другим от кодера и пытается предсказать следующие слова.
  • Существует множество вариантов конструкции этого декодера.

  • Первый уровень внедрения создает представления слов, которые передаются на уровень GRU.
  • Уровень GRU — это вариант рекуррентной нейронной сети (RNN).
  • RNN принимают входные данные, обновляют свое внутреннее состояние и генерируют выходные данные.
  • Последовательные зависимости, как и предыдущие слова, сохраняются.

  • Вывод GRU поступает на уровень внимания, который смешивает текстовую и графическую информацию.
  • TensorFlow Keras имеет предопределенные слои и несколько реализаций, которые можно менять местами и использовать практически одинаково.
  • Он может рассчитать оценку внимания, смешивая как изображение, так и текстовую информацию.

  • Последние компоненты — «Добавить слой» и «Нормализация слоя».
  • «Добавить слой» добавляет два вектора одинаковой формы.
  • В этом примере gru_output передается на уровень внимания и слой добавления.
  • Два потока объединяются в окне «Добавить слой».
  • Такая архитектура называется «пропуском соединения» — это очень популярный шаблон проектирования глубоких нейронных сетей со времен ResNet.

  • На этапе вывода создаются подписи к изображениям.

Есть три шага:

  • Сгенерируйте исходное состояние GRU и создайте стартовый токен, специальный токен, который означает начало предложения.
  • Передайте входное изображение кодировщику и извлеките вектор признаков.
  • Передайте вектор в декодер и сгенерируйте слова заголовка в цикле for до тех пор, пока он не вернет токен «end», специальный токен, который означает конец последовательности, или пока он не достигнет MAX_CAPTION_LENGTH, который является просто гиперпараметром.

Краткое содержание

  • Подпись к изображению — это использование модели для создания подписи, описывающей изображение.
  • Модель подписей к изображениям может быть построена с использованием архитектуры кодера-декодера.
  • Кодер извлекает признаки из изображения.
  • Декодер берет функции кодера и генерирует подпись.
  • Декодер может быть реализован с использованием рекуррентной нейронной сети (RNN) или преобразователя.
  • Модель можно обучить на наборе данных изображений и подписей.
  • После обучения модели ее можно использовать для создания подписей к новым изображениям.

Продолжить Часть 9 — Введение в Generative AI Studio