Всю структуру можно рассматривать как параллельный двухпоточный преобразователь. При входном изображении документа сначала используется готовый механизм OCR для получения текстовых ограничивающих рамок и содержимого. Затем информация о тексте и макете отдельно встраивается и передается в соответствующую архитектуру на основе Transformer, чтобы
получить расширенные функции. Двунаправленный механизм комплементарного внимания (BiACM) введен для обеспечения межмодального взаимодействия текста и подсказок макета. Наконец, закодированный текст и элементы макета объединяются, и к ним добавляются дополнительные заголовки для самостоятельного предварительного обучения или последующей точной настройки.

Встраивание текста

где LN — нормализация слоя

Встроенные макеты

Все координаты ограничительной рамки нормализованы и дискретизированы до целых чисел в диапазоне [0, 1000], а четыре слоя встраивания используются для создания объектов по осям X, Y, по высоте и ширине отдельно.

где CAT — операция конкатенации по каналам. Специальные токены [CLS], [SEP] и [PAD] также присоединяются к (0, 0, 0, 0, 0, 0), (1000, 1000, 1000, 1000, 0, 0) и (0, 0). , 0, 0, 0, 0) соответственно.

БиАКМ

Приведены оценки внимания потоков текста и макета, расположенных в одной заголовке одного и того же слоя:

BiACM разделяет их как общеизвестные, которые формулируются как:

Чтобы сохранить способность LiLT взаимодействовать с различными готовыми текстовыми моделями при точной настройке, насколько это возможно, мы эвристически принимаем оценки обособленного внимания, чтобы на текстовый поток не влиял градиент нетекстовых данных. один во время предварительной тренировки, и его общая согласованность может быть сохранена. Наконец, модифицированные оценки внимания используются для взвешивания прогнозируемых векторов ценности для последующих модулей в обоих потоках.

Предварительная подготовка

  • Маскированное визуально-языковое моделирование MVLM случайным образом маскирует некоторые из входных токенов, и модели предлагается восстановить их по всему словарю, используя выходные закодированные функции, обусловленные кросс-энтропийной потерей. При этом нетекстовая информация остается неизменной.
  • MVLM улучшает изучение модели на стороне языка с помощью кросс-модальной информации. Данное встраивание макета также может помочь модели лучше фиксировать отношения как между предложениями, так и внутри них.
  • Расположение ключевой точки KPL равномерно делит весь макет на несколько областей (7 × 7 = 49 областей по умолчанию) и случайным образом маскирует некоторые ограничивающие рамки ввода. Модель требуется, чтобы предсказать, к каким областям принадлежат ключевые точки (верхний левый угол, нижний правый угол и центральная точка) каждого блока с использованием отдельных головок.
  • KPL заставляет модель полностью понимать текстовое содержание и знать, куда поместить конкретное слово/предложение, когда даны соседние.
  • Кросс-модальная идентификация выравнивания CMAI собирает те закодированные функции пар токен-бокс, которые маскируются MVLM и KPL, и строит на них дополнительный заголовок, чтобы определить, выровнена ли каждая пара.
  • CMAI создает модель для изучения способности кросс-модального восприятия.

Бумага

LiLT: простой, но эффективный независимый от языка преобразователь макета для понимания структурированных документов 2202.13669

Просмотреть все темы этой серии здесь