mPLUG-DocOwl: модель мультимодального понимания документов без OCR

Введение

Понимание документов — сложная задача, требующая последовательной и всесторонней обработки различных типов информации, таких как текст, изображения, таблицы, графики и уравнения. Традиционные модели обработки естественного языка (NLP) ограничены в своей способности обрабатывать мультимодальные данные и сложные структуры документов. Чтобы решить эту проблему, группа исследователей из Академии DAMO, Alibaba Group, разработала модульную мультимодальную модель большого языка для понимания документов. Девизом разработки этой модели является автоматическое извлечение, анализ и понимание информации из различных типов цифровых документов, таких как веб-страницы. Эта новая модель ИИ называется «mPLUG-DocOwl».

Что такое mPLUG-DocOwl?

mPLUG-DocOwl — это модульная мультимодальная модель большого языка для понимания документов. Модель основана на mPLUG-Owl для понимания документов без OCR. Он предназначен для повышения способности понимания документов без OCR путем совместного обучения модели на наборе данных настройки только языка, общего видения и языка и инструкции по настройке документа с помощью единой стратегии настройки инструкций.

Ключевые функции mPLUG-DocOwl

mPLUG-DocOwl — это не просто еще одна мультимодальная языковая модель. Он имеет некоторые уникальные и мощные функции, которые отличают его от остальных. Вот некоторые из них:

mPLUG-DocOwl может понимать документы без OCR. Он может распознавать текст с изображений, не полагаясь на методы оптического распознавания символов (OCR). Он даже может делать это с нулевым выстрелом, что означает, что он может обрабатывать текст, который он никогда раньше не видел. Это показывает, что mPLUG-DocOwl обладает большим потенциалом для решения задач распознавания документов без OCR, которые часто являются сложными и требуют много времени.

mPLUG-DocOwl может превзойти другие мультимодальные модели в понимании документов. Он может извлекать, анализировать и понимать информацию из различных типов цифровых документов лучше, чем другие мультимодальные модели. Он может выполнять различные задачи понимания документов, такие как классификация документов, извлечение таблиц, распознавание формул и обобщение документов, с самыми современными результатами. Это делает mPLUG-DocOwl ценным инструментом для автоматической обработки и анализа больших объемов цифровых документов.

Возможности/вариант использования mPLUG-DocOwl

mPLUG-DocOwl имеет множество потенциальных приложений и вариантов использования в различных областях и сценариях. Например:

Это может помочь исследователям и студентам быстро получить доступ и понять научную литературу, предоставляя краткие и информативные резюме сложных документов.
Это может помочь предприятиям и организациям извлекать и анализировать ценную информацию из различных типов документов, таких как счета-фактуры, квитанции, контракты, отчеты и т. д.
Это может помочь преподавателям и учащимся создавать и понимать учебные материалы, содержащие текст, изображения, таблицы, графики, уравнения и т. д.
Он может помочь разработчикам и исследователям создавать и улучшать мультимодальные системы НЛП, предоставляя модульную структуру и крупномасштабную предварительно обученную модель.

Как работает mPLUG-DocOwl?

mPLUG-DocOwl создан на основе mPLUG-Owl и предназначен для улучшения понимания документов без OCR. Модель делает это, создавая набор данных настройки инструкций, который охватывает широкий спектр задач понимания визуального текста. Затем модель совместно обучается на наборе данных настройки только для языка, общего видения и языка и документации инструкций с помощью единой стратегии настройки инструкций (см. рисунок выше).

Архитектура mPLUG-DocOwl состоит из предварительно обученной модели визуальной основы, визуального абстрактора и модели основы языка. Модель визуальной основы извлекает визуальные признаки из входных изображений, а визуальный абстрактор сжимает эти признаки, используя набор обучаемых токенов. Полученные визуальные признаки затем объединяются со словесными вложениями входного предложения и передаются в языковую модель для генерации ответа.

Во время тонкой настройки визуальный кодировщик и языковая модель фиксируются, в то время как визуальный абстрактор обучается. Подход низкоранговой адаптации (LoRA) также используется для улучшения возможностей языковой модели. Эта мощная архитектура обеспечивает точную и эффективную многомодальную языковую обработку и позволяет mPLUG-DocOwl повысить производительность понимания документов.

Оценка эффективности с другими моделями

Экспериментальные результаты показывают, что mPLUG-DocOwl превосходит существующие мультимодальные модели в понимании документов. Более того, без специальной тонкой настройки mPLUG-DocOwl хорошо адаптируется к различным последующим задачам.

В ходе эталонных оценок исследователи сравнили mPLUG-DocOwl с другими современными моделями распознавания документов без оптического распознавания символов в общедоступных наборах данных. Например, в Таблице 1 показано сравнение с Dessurt, Donut и Pix2Struct в тесте DUE-Benchmark, который в основном проверяет возможности распознавания текста и понимания макета в документах и таблицах. В таблице 2 представлена оценка наборов данных диаграмм, естественных изображений и веб-страниц, которые требуют более высокой способности связывать визуальную семантику и текстовую информацию. Без тонкой настройки каждого набора данных mPLUG-DocOwl достигает аналогичной или даже лучшей производительности.

Как получить доступ к этой модели и использовать ее?

Если вы заинтересованы в использовании mPLUG-DocOwl для собственных задач понимания документов, вы можете легко получить к нему доступ через репозиторий GitHub. Там вы найдете подробную информацию о том, как установить необходимые пакеты, загрузить предварительно обученную модель и модели с тонкой настройкой, а также запустить сценарии для каждой задачи. Вы также можете найти исходный код и документ модели.

В качестве альтернативы, если вы хотите опробовать модель, ничего не устанавливая, вы можете использовать онлайн-демонстрацию. Демонстрационная версия позволяет загружать собственные изображения или использовать некоторые образцы изображений и просматривать результаты различных задач понимания документа, таких как классификация документов, извлечение таблиц, распознавание формул и обобщение документов.

mPLUG-DocOwl имеет открытый исходный код и распространяется под лицензией Apache License 2.0. Это означает, что вы можете использовать его в исследовательских и коммерческих целях, если вы цитируете оригинальную статью и отдаете должное авторам и Академии DAMO, Alibaba Group.

Если вам интересно узнать больше о модели mPLUG-DocOwl, все соответствующие ссылки приведены в разделе «Источник» в конце этой статьи.

Ограничения mPLUG-Owl

mPLUG-Owl — это мощная модель мультимодальной обработки языка, но она также имеет некоторые ограничения, о которых следует знать пользователям. Некоторые из них:

Он может не всегда понимать или генерировать информацию правильно или этично, в зависимости от обучающих данных.
Это может быть использовано не по назначению или непреднамеренно распространяет предвзятость или дезинформацию.
Его производительность может варьироваться в зависимости от задачи, качества и типа входных данных.
Для достижения наилучших результатов входные данные должны соответствовать данным обучения модели по модальности и содержанию.
Результаты всегда следует проверять и интерпретировать в контексте, чтобы обеспечить точность и уместность.
Важно использовать mPLUG-Owl ответственно и знать о его ограничениях, чтобы обеспечить его эффективное и этичное использование.

Заключение

mPLUG-Owl — это прорыв в мультимодальной языковой обработке, которая может обрабатывать различные типы информации и задачи. Он может выполнять точную и эффективную многомодальную языковую обработку и обеспечивает лучшее понимание документов. Это ценный ресурс для разработчиков, исследователей и пользователей, которым нужен быстрый и простой доступ к сложным документам и их понимание.

исходный
исследовательский документ — https://arxiv.org/abs/2307.02499
исследовательский документ — https://arxiv.org/pdf/2307.02499.pdf
репозиторий GitHub — https://github.com/X-PLUG/mPLUG-DocOwl
демонстрационная ссылка — https://replicate.com/joehoover/mplug-owl

Первоначально опубликовано на https://socialviews81.blogspot.com.

mPLUG-DocOwl: модель мультимодального понимания документов без OCR

Вопросы по теме