Подход «мешка слов» с учетом текстовой и макетной информации для распознавания бизнес-счетов.

Типы кандидатов -

0. (Отрицательный класс)

  1. Номер счета,
  2. Дата счета
  3. Общее количество
  4. PO #
  5. Условия оплаты
  6. Срок
  7. Налог

Рабочий процесс:

  • Подход использует отсканированные изображения счетов-фактур, сгенерированные из внутренней библиотеки тестирования Oracle Corporation, в качестве входных данных. Некоторые из них представляют собой файлы PDF со скрытым текстом, и максимум имеют формат TIFF, который требует предварительной обработки перед подачей в инструмент анализа макета PDF.
  • После начальной предварительной обработки файлы передаются в OCR, а затем в инструмент анализа макета. Координаты токенизированных текстовых групп извлекаются из инструмента анализа макета.
  • Выделение слов, удаление стоп-слов и идентификация типа (ДАТА, ДЕНЬГИ, ЧИСЛО, ТЕЛЕ и EMAIL на основе регулярного выражения) выполняются над полученными токенизированными текстовыми группами.
  • Для каждого токена применяется выбор функции -

Список функций -

  1. Горизонтально выровненные токены
  2. Вертикально выровненные токены
  3. Ближайшие жетоны (порог расстояния)
  4. Вертикальное положение
  5. Тип

Результаты:

Рассмотрены именно модели (наивный байесовский метод, логистическая регрессия и SVM). Из рис.7 (а) и (б) видно, что почти для всех

  • Наивный байесовский алгоритм хуже, чем логистическая регрессия и SVM, как с точки зрения точности, так и с точки зрения полноты.
  • Логистическая регрессия и SVM имеют одинаковую точность во всех областях интересов, кроме номера заказа, срока платежа и налога, при этом SVM работает немного лучше.
  • Это говорит о том, что SVM лучше, чем логистическая регрессия и наивный байесовский алгоритм, при извлечении наиболее полезных функций при прогнозировании.

Домыслы:

Плюсы- Paper говорит о независимом от шаблонов подходе. Подходы, зависящие от шаблона, могут хорошо работать для конкретного предопределенного шаблона, но часто не работают в сценариях реальной жизни.

Подход, несмотря на то, что использует только текстовую информацию, также принимает информацию о макете.

Против- Paper не особо много говорит о проектировании функций. Есть место для разработки функций.

В качестве обучающих и тестовых данных требуется некоторый ограниченный стиль автоматически сгенерированных изображений счетов. Не уверен в результатах на реальном снимке, сделанном камерой.

Можно было бы изучить архитектуру других моделей, например, модели упаковки и повышения для сравнения.

Возможные дальнейшие действия -

  1. Может использовать различные типы реальных изображений, снятых камерой, в качестве данных для обучения и проверки.
  2. Могли бы попробовать другие модели архитектуры, такие как модели с мешком или модели с повышением.
  3. Поскольку Paper не очень много говорит о разработке функций, на то же можно потратить больше времени.