Публикации по теме 'mplug-docowl'


mPLUG-DocOwl: модель мультимодального понимания документов без OCR
Введение Понимание документов — сложная задача, требующая последовательной и всесторонней обработки различных типов информации, таких как текст, изображения, таблицы, графики и уравнения. Традиционные модели обработки естественного языка (NLP) ограничены в своей способности обрабатывать мультимодальные данные и сложные структуры документов. Чтобы решить эту проблему, группа исследователей из Академии DAMO, Alibaba Group, разработала модульную мультимодальную модель большого языка..