LayoutLMv3 применяет унифицированный мультимодальный преобразователь текста и изображения для изучения кросс-модальных представлений. Transformer имеет многоуровневую архитектуру, и каждый уровень в основном состоит из многоуровневых сетей самоконтроля и полностью связанных сетей прямой связи по положению. Входные данные Transformer представляют собой конкатенацию последовательностей встраивания текста Y = y1:𝐿 и встраивания изображения X = x1:𝑀, где 𝐿 и 𝑀 — длины последовательностей для текста и изображения соответственно. Через Transformer последний слой выводит текстовые и графические контекстные представления.

Встраивание текста

  • Встраивание текста представляет собой комбинацию встраивания слов и встраивания позиций.
  • Вложения слов инициализируются матрицей встраивания слов из предварительно обученной модели RoBERTa.
  • Вложения позиции включают вложения позиции 1D и позиции макета 2D, где позиция 1D относится к индексу токенов в текстовой последовательности, а позиция макета 2D относится к координатам ограничивающей рамки текстовой последовательности.
  • Следуя LayoutLM, мы нормализуем все координаты по размеру изображений и используем встраивающие слои для встраивания объектов по осям x, y, а также по ширине и высоте отдельно.
  • LayoutLM и LayoutLMv2 принимают позиции макета на уровне слов, где каждое слово имеет свои позиции. Вместо этого мы принимаем положения макета на уровне сегмента, когда слова в сегменте имеют одну и ту же двухмерную позицию, поскольку слова обычно выражают одно и то же семантическое значение.

Встраивание изображений

Изображения документов представляются линейными проекционными элементами фрагментов изображения перед их подачей в мультимодальный преобразователь. Изображение документа преобразуется в 𝐻 × 𝑊 и обозначает изображение с I ∈ R 𝐶×𝐻×𝑊 , где 𝐶, 𝐻 и 𝑊 — размер канала, ширина и высота изображения соответственно. Изображение разбивается на последовательность однородных 𝑃 × 𝑃 участков, линейно проецируется участки изображения на 𝐷 размеров и сглаживается в последовательность векторов, длина которых 𝑀 = 𝐻𝑊 / 𝑃 2. Затем к каждому фрагменту добавляются обучаемые одномерные вложения положения. .

Предварительная подготовка

Моделирование маскированного языка (MLM): 30 % текстовых токенов маскируются с помощью стратегии маскирования интервалов с длинами интервалов, взятыми из распределения Пуассона (𝜆 = 3). Целью предварительной подготовки является максимизация логарифмической вероятности правильных замаскированных текстовых токенов y𝑙 на основе контекстуальных представлений поврежденных последовательностей токенов изображений X𝑀’ и текстовых токенов Y𝐿’, где 𝑀’ и 𝐿’ представляют замаскированные позиции. Поскольку информация о макете остается неизменной, эта цель облегчает модели изучение соответствия между информацией о макете и контекстом текста и изображения.

Моделирование маскированного изображения (MIM): цель MIM является симметричной по отношению к цели MLM, около 40% токенов изображения маскируются случайным образом с помощью стратегии блочного маскирования. Цель MIM обусловлена ​​потерей перекрестной энтропии для восстановления замаскированных токенов изображения x𝑚 в контексте окружающих их текстовых и графических токенов. MIM облегчает изучение высокоуровневых структур макета, а не шумных низкоуровневых деталей.

Выравнивание Word-Patch (WPA). Целью WPA является предсказание того, маскируются ли соответствующие фрагменты изображения текстового слова. В частности, выровненная метка назначается немаскированному текстовому токену, когда его соответствующие токены изображения также не маскируются. В противном случае назначается невыровненная метка. Токены замаскированного текста исключаются при расчете потерь WPA, чтобы модель не изучала соответствие между замаскированными текстовыми словами и фрагментами изображения.

Чтобы изучить универсальное представление для различных задач с документами, LayoutLMv3 предварительно обучен на большом наборе данных IIT-CDIP.

Конфигурации модели

LayoutLMv3BASE использует 12-уровневый кодировщик Transformer с 12-головочным самостоятельным вниманием, скрытым размером
𝐷 = 768 и 3072 промежуточными размерами сетей прямой связи.

LayoutLMv3LARGE использует 24-уровневый кодировщик Transformer с 16-головочным самостоятельным вниманием, скрытым размером 𝐷 = 1024 и промежуточным размером 4096 сетей прямой связи.

  • Для предварительной обработки текстового ввода текстовая последовательность токенизируется с помощью байт-парного кодирования (BPE) с максимальной длиной последовательности 𝐿 = 512.
  • Токен [CLS] и [SEP] добавляются в начале и в конце каждой текстовой последовательности.
  • Когда длина текстовой последовательности меньше 𝐿, к ней добавляются токены [PAD]. Все координаты ограничивающей рамки этих специальных токенов равны нулю.
  • Параметры для встраивания изображения: 𝐶 × 𝐻 × 𝑊 = 3 × 224 × 224, 𝑃 = 16, 𝑀 = 196.

Тонкая настройка

  • Понимание форм и квитанций: набор данных FUNSD и CORD
  • Классификация изображений документов: набор данных RVL-CDIP
  • Документирование ответов на визуальные вопросы: набор данных DocVQA
  • Анализ макета документа: набор данных PubLayNet

Бумага

LayoutLMv3: предварительная подготовка для ИИ для документов с унифицированной маскировкой текста и изображений 2204.08387

Просмотреть все темы этой серии здесь