Ануп Катти, Кристиан Рейссвиг, Йоханнес Хоне, Кордула Гудер, Себастьян Брарда, Штеффен Бикель и Жан Батист Фаддул (Центр глубокого обучения передового опыта)

В эпоху цифровых технологий контент представлен в различных макетах, форматах и ​​богатых мультимедийных активах, которые необходимы для понимания текстовой информации. Люди способны воспринимать контент и обрабатывать информацию по-разному. Мы можем внимательно читать тексты линейным способом, чтобы полностью понять его содержание, но мы также можем бегло читать или сканировать документы, чтобы извлечь конкретную информацию. Когда дело доходит до цифрового контента, где формат имеет значение и может даже определять способ чтения документа, наш мозг перестраивается, и ему удается развивать новые когнитивные навыки и способности; позволяя нам читать в табличной или нелинейной форме. Например, мы можем быстро читать 2D-документы, такие как презентации, мультимедийные блоги или веб-сайты, и распознавать структуру текста и логический поток идей среди всех различных ресурсов в нелинейном макете. Могут ли модели машинного обучения адекватно понимать и извлекать информацию из 2D-документов?

Современные подходы: текст или пиксели на входе

Благодаря непрерывному развитию методов обработки естественного языка (NLP) модели машинного обучения теперь способны понимать и извлекать информацию из неструктурированного текста, такого как книги, новостные статьи или короткие фрагменты текста, с точностью почти на уровне человека. Однако, когда дело доходит до понимания структурированного или форматированного текста, то есть 2D-документов, в которых структура макета имеет решающее значение для понимания семантики, машины по-прежнему не так универсальны и адаптивны, как люди. Они остаются в ловушке «линейной» парадигмы понимания. Например, современные современные методы НЛП работают исключительно на уровне текста, обрабатывая документы в последовательном или линейном порядке. Этот метод представляет информацию в сериализованных строках и полностью игнорирует двухмерный макет. Следовательно, в ситуациях, когда структура макета и позиционирование необходимы для понимания текстового содержания, методы НЛП создают беспорядочную последовательность символов; что еще больше усложняет понимание документа.

С другой стороны, подходы компьютерного зрения (CV) могут обрабатывать документы как изображения, используя ввод на уровне пикселей. Мы можем извлечь информацию из этих документов, используя задачи обнаружения объектов и семантической сегментации. Этот подход сохраняет двухмерный макет, но работает только с низкоуровневыми пиксельными блоками, а не с текстовым содержимым. Такие подходы подходят, если нам нужно только проанализировать макет документа, не понимая его текстового содержания; чем-то напоминающий человека, пытающегося понять документ на иностранном языке.

Следовательно, стандартные методы NLP и CV налагают мандат или / или: работать на уровне текста для глубокого понимания семантики, но терять 2D-макет или работать на уровне пикселей документов как изображений, чтобы сохранить макет, но теряют текстовое содержание. Как мы можем совместить эти два подхода? В нашем недавнем документе EMNLP 2018: Chargrid: Towards Understanding 2D Documents мы представляем новый подход к представлению документов: символьная сетка или chargrid. В нашем подходе используется двумерная сетка символов, чтобы сохранить двумерную структуру макета документов; одновременно работая над текстовым контентом.

Chargrid: создание пикселей символов

Первым шагом к созданию конвейера представления документа chargrid является сопоставление каждого символа (то есть буквенной буквы) с постоянным числовым значением. Например, символ «A» будет представлен целым числом «1», символ «B» - целым числом «2», «C» - целым числом «3» и так далее. Документ состоит из множества символов, и каждый символ в документе занимает определенное место. Что мы делаем, так это извлекаем символы вместе с их местоположением из входного документа (используя такие системы, как OCR или pdf2text). После этого мы создаем пустой холст (т. Е. Chargrid). Для каждого извлеченного символа мы помещаем его сопоставленное целое число на холст в области, занимаемой символом в исходном документе. Благодаря этому нам удается создать 2D-представление документа, в котором текстовое содержимое размещается в виде сеток символов в определенном месте; позволяя нам работать с текстовым контентом в документе, сохраняя его 2D-макет. Мы показываем пример символов ‘Ch’ на рисунке ниже.

Соединяя точки: работа с документами с помощью Chargrid

Понимание документа - это понимание семантического содержания документа на разных уровнях: символов, слов, абзацев и элементов макета. Используя представление chargrid, мы формулируем задачу понимания документа как семантическую сегментацию на уровне экземпляра на chargrid. Семантическая сегментация на уровне экземпляра дает два выхода, которые облегчают извлечение информации из chargrid: семантическая сегментация и ограничивающие прямоугольники. Семантическая сегментация распознает или идентифицирует различные классы или метки в документе; тогда как ограничивающие рамки определяют местонахождение нескольких экземпляров одного и того же класса, встречающихся в документе. Мы применили наш подход к извлечению информации из счетов-фактур, чтобы проверить его способность точно извлекать ключевую информацию из 2D-документов различных макетов и форматов.

Chargrid в действии: приложение для извлечения информации из счетов

Крупные транснациональные компании получают от различных поставщиков по всему миру от десятков тысяч до нескольких миллионов счетов в год. Таким образом, они написаны на разных языках, имеют разные форматы дат, валют и налогообложения и имеют разную компоновку. Извлечение ключевой информации из этих счетов - сложная и утомительная задача. Мы применили нашу формулировку понимания документов (сегментация на уровне экземпляра в chargrid) для извлечения полезной информации из счетов. С этой целью мы сначала составили набор данных отсканированных образцов счетов-фактур; обеспечение того, чтобы этот набор содержал счета-фактуры в различных форматах, на разных языках (например, английском, французском, немецком, испанском и норвежском) и с максимум шестью счетами от одного поставщика. После этого мы обучили модель на этом наборе данных для извлечения ключевой информации из счетов-фактур, т. Е. Полей заголовков, таких как «InvoiceNumber», «InvoiceDate», «InvoiceAmount», «Vendor Name» и «Vendor Address», а также строк , включая соответствующую цену, описание и количество. Ниже мы показываем несколько примеров chargrid и выходных данных нейронной сети.

Мы сравнили наши результаты с последовательной моделью, работающей только на уровне текста, и подходом на основе изображений, работающим на уровне пикселей. Chargrid и последовательный подход NLP одинаково хорошо работали с простыми полями (обычно состоящими из одного слова), такими как «Номер счета-фактуры» или «Сумма счета-фактуры». Для многословных или больших полей, таких как описание позиций, количество или сумма, где 2D-макет и структура имеют решающее значение для точного извлечения этих полей, chargrid значительно превосходит последовательную модель. С другой стороны, chargrid по-прежнему превосходит модель на основе изображений, особенно в небольших полях и сложных задачах извлечения, которые потребуют понимания текста.

Перспективы на будущее

Мы все еще далеки от создания «грамотных» моделей, способных уловить сложность и нюансы текстового содержания во всех его формах. Наш подход представляет собой первый шаг к интеграции структуры 2D-макета в задачи понимания документа; позволяя модели точно воспринимать 2D-документы с различными макетами и извлекать соответствующую информацию. Однако это новое представление документа не ограничивается счетами-фактурами, но может применяться к другим типам документов, таким как резюме, контракты, отчеты, веб-страницы и научные статьи. Нам также интересно протестировать chargrid на других задачах или сценариях НЛП, где текст и естественные изображения смешаны.

Посмотрите наш плакат, представленный ниже на конференции по эмпирическим методам обработки естественного языка (EMNLP 2018). Для получения более подробной информации, пожалуйста, обратитесь к нашему документу и поделитесь с нами своими мыслями в разделе комментариев.