Краткое содержание бумаги: неструктурированное распознавание документов в бизнес-счетах

Подход «мешка слов» с учетом текстовой и макетной информации для распознавания бизнес-счетов.

Типы кандидатов -

0. (Отрицательный класс)

Номер счета,
Дата счета
Общее количество
PO #
Условия оплаты
Срок
Налог

Рабочий процесс:

Подход использует отсканированные изображения счетов-фактур, сгенерированные из внутренней библиотеки тестирования Oracle Corporation, в качестве входных данных. Некоторые из них представляют собой файлы PDF со скрытым текстом, и максимум имеют формат TIFF, который требует предварительной обработки перед подачей в инструмент анализа макета PDF.
После начальной предварительной обработки файлы передаются в OCR, а затем в инструмент анализа макета. Координаты токенизированных текстовых групп извлекаются из инструмента анализа макета.
Выделение слов, удаление стоп-слов и идентификация типа (ДАТА, ДЕНЬГИ, ЧИСЛО, ТЕЛЕ и EMAIL на основе регулярного выражения) выполняются над полученными токенизированными текстовыми группами.
Для каждого токена применяется выбор функции -

Список функций -

Горизонтально выровненные токены
Вертикально выровненные токены
Ближайшие жетоны (порог расстояния)
Вертикальное положение
Тип

Результаты:

Рассмотрены именно модели (наивный байесовский метод, логистическая регрессия и SVM). Из рис.7 (а) и (б) видно, что почти для всех

Наивный байесовский алгоритм хуже, чем логистическая регрессия и SVM, как с точки зрения точности, так и с точки зрения полноты.
Логистическая регрессия и SVM имеют одинаковую точность во всех областях интересов, кроме номера заказа, срока платежа и налога, при этом SVM работает немного лучше.
Это говорит о том, что SVM лучше, чем логистическая регрессия и наивный байесовский алгоритм, при извлечении наиболее полезных функций при прогнозировании.

Домыслы:

Плюсы- Paper говорит о независимом от шаблонов подходе. Подходы, зависящие от шаблона, могут хорошо работать для конкретного предопределенного шаблона, но часто не работают в сценариях реальной жизни.

Подход, несмотря на то, что использует только текстовую информацию, также принимает информацию о макете.

Против- Paper не особо много говорит о проектировании функций. Есть место для разработки функций.

В качестве обучающих и тестовых данных требуется некоторый ограниченный стиль автоматически сгенерированных изображений счетов. Не уверен в результатах на реальном снимке, сделанном камерой.

Можно было бы изучить архитектуру других моделей, например, модели упаковки и повышения для сравнения.

Возможные дальнейшие действия -

Может использовать различные типы реальных изображений, снятых камерой, в качестве данных для обучения и проверки.
Могли бы попробовать другие модели архитектуры, такие как модели с мешком или модели с повышением.
Поскольку Paper не очень много говорит о разработке функций, на то же можно потратить больше времени.

Краткое содержание бумаги: неструктурированное распознавание документов в бизнес-счетах

Рабочий процесс:

Результаты:

Домыслы:

Возможные дальнейшие действия -

Вопросы по теме