Извлечение или классификация документов являются основными вариантами использования в любой отрасли, особенно там, где основная часть операций по-прежнему выполняется с использованием физических документов. Документы часто сильно неструктурированы, написаны от руки и требуют ручных усилий для извлечения или обновления любой информации о процессе, что увеличивает усилия и работу организации. В таких случаях извлечение информации может быть ручным занятием. Механизм оптического распознавания символов (OCR) может сыграть важную роль в понимании этого набора документов и извлечении ценной и важной информации. Кроме того, добавление интеллектуального уровня машинного обучения поверх этого извлеченного текста OCR может преобразовать этот обычный текст в ценные данные.

Tesseract — это самая примитивная модель, которая используется для решения большинства случаев использования, связанных с OCR. Хотя Tesseract хорошо зарекомендовал себя в области OCR для извлечения текстовой информации из изображений, он терпит неудачу при извлечении данных из таблиц и рукописных данных. Кроме того, извлечение пользовательских сущностей становится утомительной и трудоемкой задачей, когда документы имеют высокую однородность по своему структурному содержанию. Для сопоставления сущности имени для таких документов требуется большой объем пользовательской логики. Это делает извлечение данных очень сложным, увеличивая усилия и время разработки. Со временем в этой области появились более сложные модели. Easy OCR/Keras OCR/paddle OCR — это лишь немногие из доступных расширенных опций с открытым исходным кодом, которые используют распознавание на основе глубокого обучения вместе с моделью извлечения для извлечения текста. Более эффективным способом решения таких вариантов использования является использование любой из доступных облачных служб. Google Document AI, Amazon Textract, Azure Form Recognizer — это лишь немногие из сервисов, которые можно адаптировать для извлечения документов и пользовательских сущностей, которые играют важную роль в отрасли для создания моделей для обработки больших объемов документов.

Небольшие преимущества использования облачных сервисов

i) Конфиденциальная информация о документе не может быть загружена для использования в онлайн-инструментах для получения достоверной информации. Облачные сервисы поставляются со встроенным сервисом аннотаций.

ii) Предоставляет услугу HITL, при которой неправильно извлеченная информация может быть повторно обучена моделью для получения правильного вывода.

iii) Может использоваться как в синхронном, так и в асинхронном режимах извлечения.

iv) Требуется меньше времени и усилий на разработку

v) Возможность обработки больших объемов данных

vi) Возможность обработки многоязычных документов

vii) Возможность обработки табличной и рукописной информации.

viii) Модель для конкретного варианта использования может быть построена поверх предоставленной модели.

С меньшим количеством обучающих данных.

Несколько вариантов использования

i) Резюме документа — суммирование текстового содержания документа.

ii) Классификация документов — классификация документов на его подтипы.

iii) Содержимое интеллектуального поля из документов.

iv) Маршрутизация жалоб — направление жалоб в соответствующие CRM на основе риска подачи жалобы.

v) проверка KYC — извлечение данных из документов KYC

vi) Проверка и сопоставление документов — проверка формы и вспомогательной информации о документе

vii) Проверка подписи

КАК СОЗДАТЬ РЕШЕНИЕ ДЛЯ ИЗВЛЕЧЕНИЯ ДОКУМЕНТОВ E2E

Общий поток процесса извлечения документа состоит из следующих шагов.

i) прием документов.

ii) Преобразование вашего файла в изображение

iii) Сегментация отдельных страниц. Сегментируйте документ на отдельные страницы, поскольку извлечение текста на странице может помочь в устранении повторяющихся пар сущностей.

iv) Обнаружение ориентации изображения и коррекция — определение ориентации входного изображения и выполнение поворота

v) Извлечение текста — используйте любой механизм OCR для извлечения текста из документа. Текст из документа можно извлечь как строку, абзац или блок.

vi) Сопоставление значения сущности поля. Значение сущности поля можно сопоставить путем разработки пользовательской логики или обучения модели распознавания сущности имени.

vii) Исправление после извлечения — OCR, как правило, склонны к неправильной классификации текста, такого как A как 4 или 5 как S или I как 1, что должно быть обработано в сценарии исправления после извлечения, где это возможно.

THE Hocr Extraction для сложных документов

HOCR — это файл OCR в формате HTML, который в основном используется для извлечения метаинформации из файла PDF. Разбор файла HOCR помогает найти текст в документе с помощью ссылочных объектов. Пользовательская логика может быть разработана для извлечения объектов с использованием ограничивающей рамки объекта, окруженного текстом. Формат файла HOCR можно проанализировать с помощью любого парсера HTML.

Ниже приведен пример файла hocr.

Текст HOCR представлен в виде файлов HTML с распределением строк и слов в тегах span как ocr_line, ocrx_word. Каждое извлеченное слово документа находится под отдельным тегом span.

Он также дает другую полезную информацию, как

i) Соответствующая достоверность извлеченного слова определяется как x_wconf.

ii) Геометрическая информация извлеченного слова с координатами ограничивающего прямоугольника извлеченного текста представлена ​​тегом bbox.

iii) Структурная информация макета документа

iv) Обнаруженный язык извлеченного документа

Выбор области интереса (ROI) в основном полезен при использовании HOCR. Передача области интереса вместо всего изображения дает лучший результат извлечения.

ОРИЕНТАЦИЯ ДОКУМЕНТА

Представьте, что пакет загруженных документов имеет нестандартную ориентацию или отсканированные документы неправильно ориентированы. В таком сценарии должен быть реализован соответствующий метод сегментации и ориентации страницы. Все модели OCR имеют ориентацию и метод сегментации страниц, включенный в модель в качестве вспомогательной функции для определения угла ориентации документа. Кроме того, используйте модель регистрации изображения перед извлечением текста в качестве шага предварительной обработки для обработки поворота изображения.

Некоторые моменты, которые следует помнить

· Преобразованное изображение должно иметь разрешение не менее 300 dpi.

· Отрегулируйте соотношение ширины и высоты изображения.

· Применение большого объема обработки изображений в качестве предварительной обработки может привести к ухудшению качества извлеченного текста, поскольку каждая модель OCR имеет встроенную предварительную обработку изображений.

· Всегда обрабатывать ориентацию и сегментацию страницы документа.

· Введите конкретную область интереса изображения в модель OCR вместо отправки всего изображения в качестве входных данных для модели.

Давайте создадим ваше первое решение для распознавания текста!!! Приятного обучения!!