Подход «мешка слов» с учетом текстовой и макетной информации для распознавания бизнес-счетов.
Типы кандидатов -
0. (Отрицательный класс)
- Номер счета,
- Дата счета
- Общее количество
- PO #
- Условия оплаты
- Срок
- Налог
Рабочий процесс:
- Подход использует отсканированные изображения счетов-фактур, сгенерированные из внутренней библиотеки тестирования Oracle Corporation, в качестве входных данных. Некоторые из них представляют собой файлы PDF со скрытым текстом, и максимум имеют формат TIFF, который требует предварительной обработки перед подачей в инструмент анализа макета PDF.
- После начальной предварительной обработки файлы передаются в OCR, а затем в инструмент анализа макета. Координаты токенизированных текстовых групп извлекаются из инструмента анализа макета.
- Выделение слов, удаление стоп-слов и идентификация типа (ДАТА, ДЕНЬГИ, ЧИСЛО, ТЕЛЕ и EMAIL на основе регулярного выражения) выполняются над полученными токенизированными текстовыми группами.
- Для каждого токена применяется выбор функции -
Список функций -
- Горизонтально выровненные токены
- Вертикально выровненные токены
- Ближайшие жетоны (порог расстояния)
- Вертикальное положение
- Тип
Результаты:
Рассмотрены именно модели (наивный байесовский метод, логистическая регрессия и SVM). Из рис.7 (а) и (б) видно, что почти для всех
- Наивный байесовский алгоритм хуже, чем логистическая регрессия и SVM, как с точки зрения точности, так и с точки зрения полноты.
- Логистическая регрессия и SVM имеют одинаковую точность во всех областях интересов, кроме номера заказа, срока платежа и налога, при этом SVM работает немного лучше.
- Это говорит о том, что SVM лучше, чем логистическая регрессия и наивный байесовский алгоритм, при извлечении наиболее полезных функций при прогнозировании.
Домыслы:
Плюсы- Paper говорит о независимом от шаблонов подходе. Подходы, зависящие от шаблона, могут хорошо работать для конкретного предопределенного шаблона, но часто не работают в сценариях реальной жизни.
Подход, несмотря на то, что использует только текстовую информацию, также принимает информацию о макете.
Против- Paper не особо много говорит о проектировании функций. Есть место для разработки функций.
В качестве обучающих и тестовых данных требуется некоторый ограниченный стиль автоматически сгенерированных изображений счетов. Не уверен в результатах на реальном снимке, сделанном камерой.
Можно было бы изучить архитектуру других моделей, например, модели упаковки и повышения для сравнения.
Возможные дальнейшие действия -
- Может использовать различные типы реальных изображений, снятых камерой, в качестве данных для обучения и проверки.
- Могли бы попробовать другие модели архитектуры, такие как модели с мешком или модели с повышением.
- Поскольку Paper не очень много говорит о разработке функций, на то же можно потратить больше времени.