Источник — https://www.aclweb.org/anthology/U18-1006

SYPHT – это масштабируемое решение для машинного обучения для анализа счетов, основанное на содержании, для извлечения полей документов. Он сочетает в себе OCR, эвристическую фильтрацию и контролируемую модель ранжирования для прогнозирования на уровне полей.

Рабочий процесс:

  • SYPHT принимает в качестве входных данных PDF-файл или файл изображения, нормализованный до одного JPEG на страницу. Каждая страница передается механизму OCR, который извлекает текстовые маркеры и соответствующие позиции в документе. Spacy используется для токенизации вывода OCR.
  • Отфильтруйте подмножество токенов в качестве кандидата на основе типа целевого поля.

Доступные типы кандидатов:

  1. 1. Поставщик АБН
  2. 3. Номер счета
  3. 4. Дата документа
  4. 5. Чистая сумма
  5. 6. Сумма налога на товары и услуги
  6. 7. Общая сумма

Список функций —

  1. Токенизированный текст
  2. Часть речи Теги
  3. Форма слова
  4. Разреженное представление текстовой окрестности
  5. Относительное положение токена к другим предсказаниям
  • Токены и изображения страниц служат входными данными для модели дерева решений с повышением градиента (Light GBM). Если предсказание падает ниже определенного порога, возвращается null, указывающее, что значение поля не предсказано.

  • Пользователи также могут задать доверительный порог, ниже которого требуется вмешательство пользователя. Для этого SYPHT поставляется с инструментом аннотации и проверки с прогнозированием — SYPHT VALIDATE. Такие функции, как выделение токенов и навигация с помощью клавиатуры, значительно сокращают время аннотирования.
  • После этапа проверки объект в формате JSON возвращается через API, содержащий пары поле-значение.

Результаты:

Спекуляции:

Pros-SYPHT предоставляет удобный интерфейс без конфигураций или ручных аннотаций. Инструмент SYPHT VALIDATE поставляется с подсветкой токенов, навигация с помощью клавиатуры значительно сокращает время аннотации. SYPHT поддерживает среднюю задержку прогнозирования на 25% ниже. Высочайшая производительность в указанных областях

Минусы: SYPHT использует ограниченные функции текста, есть место для разработки функций. Можно было бы изучить другую архитектуру, такую ​​как LSTM, трансформатор.

Возможные дальнейшие действия —

  • Мы могли бы потратить больше усилий на разработку функций
  • Можно изучить дополнительные варианты, такие как BERT, ELMO, ULMFIT.
  • Модели обнаружения и классификации объектов можно использовать, чтобы сделать визуальный компонент более интуитивным.