Ссылка на мой профиль блогаe: https://rakshithv-deeplearning.blogspot.com/

UniDoc: унифицированная платформа предварительного обучения для понимания документов

Авторы предложили самоконтролируемую структуру для понимания документов с мультимодальной точки зрения. Предварительное обучение языку с использованием трансформеров стало чрезвычайно популярным. В этой работе авторы показали, как использовать SSL с помощью преобразователей, получая входные данные от различных модальностей, таких как изображение и текст.

UniDoc имеет в основном 4 шага:

  1. Извлечение признаков: при заданном изображении документа I и расположении элементов документа извлекаются предложения OCR и соответствующие ограничивающие рамки.
  2. Внедрение функций. Для ограничивающей рамки функции извлекаются с помощью магистрали CNN + RoIAlign и квантуются с использованием Gumble-softmax (аналогично Wav2Vec2), а встраивание предложений извлекается из предварительно обученных иерархических преобразователей.
  3. Закрытое перекрестное внимание . Это один из основных компонентов работы, где между текстом и визуальным встраиванием происходит кросс-модальное взаимодействие с помощью типичного механизма перекрестного внимания. Теперь стробирование используется для объединения представления обеих модальностей. (Стробирование — это не что иное, как изученный параметр альфа (между 0 и 1), который определяет, как объединяются вложения).
  4. Целевая функция. В основном целевая функция состоит из трех частей. а) Моделирование замаскированных предложений (в отличие от слов, как в случае BERT). б) Контрастное обучение поверх маскированной области интереса. в) Выравнивание видения и языка.

В статье было проведено много интересных исследований абляции, таких как использование магистральной сети CNN и стратегий предварительной подготовки.

Ссылка на статью: https://openreview.net/pdf?id=UMcd6l1msUK

Одна из ключевых идей — мультимодальное взаимодействие через перекрестное внимание и их объединение с помощью закрытого параметра обучения

Мультимодальное поэтапное обучение с использованием замороженных языковых моделей

Мы все знаем, как авторегрессивные языковые модели, обученные более чем миллиардам параметров на большом текстовом корпусе, могут хорошо выполнять большинство последующих задач с небольшим набором данных. Как правило, его возможности ограничены одной модальностью. В этой работе авторы показали, как он может работать для мультимодальностей, таких как зрение и текст.

  1. Заморозить все слои языковых моделей
  2. Обучите видеокодер, который берет изображение I и выходные данные его слоя пула, который имеет размер D * K каналов, которые подаются как последовательность k вложений в предварительно обученный языковой преобразователь в качестве встраивания префикса.
  3. Поскольку слои преобразователя заморожены, градиенты из слоя преобразователя используются только для обновления видеокодера авторегрессивным способом.
  4. Таким образом, изображение и часть подписи даются в качестве вывода, а метка будет оставшейся частью этикетки.

Немногие примеры его эффективности при обучении нескольким выстрелам поражают.

Ссылка на статью: https://papers.nips.cc/paper/2021/file/01b7575c38dac42f3cfb7d500438b875-Paper.pdf

Идея заключается в сопоставлении визуальной информации с пространством для встраивания текста

Неверными объяснениями можно манипулировать

Авторы объяснили, что такое контрфактические объяснения и как ими можно манипулировать, на следующем примере:

Машинное обучение использовалось в критических приложениях, таких как одобрение кредита, если человеку отказывают в кредите из-за решения, основанного на модели кредитного риска. Теперь контрфактические объяснения предлагают, какое минимальное изменение необходимо сделать из входных данных, чтобы изменить решение модели кредитного риска. Как небольшое изменение входных данных может привести к решению модели кредитного риска, как показано ниже.

Как видно на изображении, небольшая дельта-изменение во входных данных возраста мужчин приводит к другому объяснению. Это представляет собой несоответствие в объяснении между группами (особенно для защищенных групп).

Чтобы избежать этих проблем, они придумали состязательную цель обучения.

Сначала находят искомое возмущение Delta

Последний член гарантирует, что возмущения невелики

Теперь они вводят термины, зависящие от контрфактического алгоритма А, и фиксируют дельту.

  1. Третий член уравнения представляет собой уменьшение разницы в контрфактических данных между защищенными и незащищенными группами по исходным данным.
  2. Второе слагаемое подталкивает незащищенную группу к возмещению затрат из-за возмущенного ввода. справедливость в отношении возмещения расходов защищенной группы.

Ссылка на статью: https://papers.nips.cc/paper/2021/file/009c434cab57de48a31f6b669e7ba266-Paper.pdf

Идея состоит в том, чтобы обеспечить согласованность неверных объяснений между незащищенными и защищенными группами

P.S. Я изо всех сил старался это понять и собрать воедино, очень интересная работа. надеюсь мои объяснения верны