Анализ документа - это больше, чем обработка текста

Нетрудно понять, почему компании хотят использовать технологии для работы с документами. Учитывая огромный и постоянно растущий объем документов, которые необходимо обработать, машинная помощь неизбежна. А машинный анализ показал большую эффективность во всем: от обработки медицинских записей и страховых требований до обнаружения мошенничества в электронных письмах.

Однако успех любого конкретного проекта обработки документов далеко не предопределен. Те, кто думает о своих документах просто как о тексте, могут быть застигнуты врасплох сложностью и сложностью проекта.

Для ясности, давайте определим анализ документа как анализ и извлечение информации из цифровых документов, которые содержат богатые компоненты, такие как текст и графики. Огромная проблема создания машин для этой задачи охватывает множество дисциплин, включая системы баз данных, обработку изображений, обработку естественного языка, распознавание образов и машинное обучение.

Почему так сложно анализировать документы?

Чтобы анализировать документы, даже людям нужны годы обучения, чтобы понимать слова, формы, таблицы и графики. Машины, которые предназначены для выполнения повторяющихся задач с ограниченным обобщением, сталкиваются с собственными проблемами, пытаясь стать полезными. Вот три:

Большой объем: контролируемое обучение требует человеческого ярлыка

Часто лучше обучать машины на документах, которые люди уже прочитали и пометили. Для этого требуются люди, которые могут читать, писать и понимать документы для данной области - особенно интенсивный и дорогостоящий процесс, когда документов много и / или документы требуют специальных знаний. Маркировка тысяч или миллионов медицинских записей, которые могут содержать, например, рукописные заметки, может быть утомительным процессом.

Большое разнообразие: экстремальное разнообразие данных выходит за рамки текста

Документы часто содержат богатый контент, такой как цифровые и рукописные тексты, изображения, графики и таблицы. Документы могут быть получены из различных источников, включая текст, изображения, видео и аудио, и они могут храниться в различных форматах, таких как простые текстовые строки, отсканированные тексты, полноформатные веб-страницы, электронные письма, изображения, журналы и т. Д.

В целом документы неоднородны и неструктурированы. Хотя эти разновидности контента и форматов обычно подходят для понимания и анализа человеком, машинам может быть сложно их систематизировать, анализировать и извлекать.

В качестве примера возьмем Извлечение текста PDF. Файл PDF может содержать цифровой или отсканированный текст, внестраничные или мелкие символы, а также странные форматы шрифтов. Один PDF-файл может быть очень длинным с разными макетами и языками. Более того, PDF-файл часто состоит не только из текста.

Большая сложность: слова, форматы и модели

Слова, как строительные блоки для документов, нелегко обрабатывать. Картинка стоит тысячи слов означает, что людям намного легче понимать изображения. В некотором смысле это верно и для машин - схватывание слов создает фундаментальные проблемы для систем искусственного интеллекта, когда дело доходит до обработки естественного языка (НЛП), понимания и рассуждений.

Разнообразие форматов документов делает конвейер анализа еще более сложным. Например, компьютерное зрение необходимо для оптического распознавания символов (OCR) для преобразования отсканированных документов в цифровые, которые позже используются в НЛП. Следовательно, конвейер часто требует нескольких моделей машинного обучения для анализа документов.

Эта сложность конвейера еще больше усложняет предварительную обработку и маркировку данных, а также разработку моделей и управление ими. Обработка и маркировка документов с высоким качеством требует умения читать и понимать данный язык. Смещение данных может быть непреднамеренно внесено во время этого процесса, и этот фактор смещения может быть дополнительно усилен при разработке нескольких моделей. Эти модели обычно бывают разных типов, охватывающих разные дисциплины машинного обучения. Таким образом, аудит модели становится еще одним необходимым компонентом зрелого конвейера анализа документов.

Как мы проводим анализ документов в Infinia ML

В Infinia ML мы с энтузиазмом применяем машинное обучение, чтобы помочь компаниям и организациям работать быстрее со своими документами. Совместно с группой талантливых специалистов по обработке данных и инженеров-программистов мы разработали гибкий внутренний набор инструментов, «Infinia ML Cloud Layer», для решения вышеуказанных задач. Рисунок 1 иллюстрирует нашу общую архитектуру.

Средний уровень Infinia ML Cloud Layer содержит наши основные технологии с четырьмя строительными блоками, которые предназначены для облачных вычислений и поддержки облачных вычислений. Все эти блоки легко связаны между собой и могут быть легко настроены в соответствии с потребностями различных клиентов.

Блок Cloud Infrastructure управляет вводом / выводом данных, разработкой программного обеспечения, развертыванием, обслуживанием системы, безопасностью и масштабируемостью. Это обеспечивает весь наш цикл разработки для кодирования, моделирования, пользовательского интерфейса и бизнес-логики среднего уровня.
Блок библиотеки представляет собой смесь пакетов с открытым исходным кодом (таких как scikit-learn и PyTorch) и наших собственных технологий машинного обучения. Мы вобрали в себя наш опыт в области науки о данных и новейшие идеи и методы машинного обучения в этом многоразовом пакете. Это ускоряет разработку наших моделей для клиентов.
Системам AI / ML без аудита нельзя доверять. Мы создали наш Аудитор с удобными пользовательскими интерфейсами для мониторинга производительности модели и аудита конвейеров машинного обучения.
Блок Document Analysis - это наше специализированное приложение машинного обучения с пользовательским интерфейсом, которое предназначено для анализа документов, извлечения данных, а также отображения и просмотра информации о документах.

Результаты анализа зависят от предметной области и потребностей клиента. Они могут содержать документы, полученные из поискового запроса, или информацию, извлеченную из отсканированных документов, такую как адреса, номера телефонов, названия компаний, суммы счетов и т. Д.

Мы также твердо верим в вовлечение людей в петлю. Весь конвейер машинного обучения должен контролироваться нашими экспертами в предметной области. Их отзывы можно снова добавить в наш процесс анализа документов.

В заключение, машинный анализ документов - это непростая задача на практике, а анализа простого текста недостаточно для машинного анализа документов. Мы надеемся, что обмен нашим собственным опытом поможет вдохновить на новые идеи и ускорить процессы анализа документов. В конце концов, мы можем никогда не узнать, когда машины научатся сами по себе, но мы знаем, что люди всегда учатся.

Автор благодарит Джеймса Котецки за ценный отзыв об этом блоге.