Современные методы извлечения и разблокировки неструктурированных данных в документах

Большая часть мировой информации хранится на бумаге и в файлах PDF или представляет собой просто сканирование физических документов. Анализ и распознавание документов (DAR) - это термин, обозначающий усилия по использованию компьютеров для взлома этих статических документов, чтобы сделать их более удобными и полезными.

После разблокировки и машинного чтения есть много вещей, которые можно делать с документами с помощью так называемого интеллектуального анализа текста или текстовой аналитики, в том числе:

Несколько компаний предлагают текстовую аналитику в виде микросервисов «машинное обучение как услуга», в том числе:

Для документов, которые не являются машиночитаемыми, например, тех, которые отсканированы как PDF-файлы, оптическое распознавание символов (OCR) является ключевым средством распознавания текста и представляет собой преобразование символов цифрового изображения в цифровой текст. Хотя коммерческое оптическое распознавание символов восходит к 1950-м годам, и результаты могут быть очень впечатляющими, получение стабильно высоких показателей точности по-прежнему является сложной проблемой.

Лучшие коммерческие возможности распознавания текста доступны в виде микросервисов типа "машинное обучение как услуга", включая:

Распознавание рукописного текста - еще более сложная задача, чем распознавание текста, а современные технологии не очень хороши. Системы Распознавание рукописного текста (HTR) должны обрабатывать перекрывающиеся символы, сочетание курсива и не курсива, а также огромные различия в стилях письма. В некоторых случаях задача может оказаться практически невыполнимой. Многие из нас даже испытали странный опыт, когда изо всех сил пытались разобрать собственный почерк.

До недавнего времени точность распознавания HTR улучшалась медленными темпами. Большинство достижений было минимальным и явилось результатом небольших изменений в существующих методах языковых моделей, таких как Скрытые марковские модели (HMM). Основные алгоритмы остались неизменными, а скорость распознавания была низкой даже для лучших систем HTR.

Однако недавние достижения в области машинного обучения произвели революцию в этой области. В частности, использование сетей сверточных нейронных сетей (CNN или ConvNets) и Long Short-Term Memory (LSTM) привело к наиболее значительным улучшениям точности за последние десятилетия. Эти гибридные глубокие сети более надежны, обрабатывают более широкий диапазон рукописных вводов и представляют собой принципиально новый подход к HTR.

Сети LSTM представляют собой тип рекуррентной нейронной сети (RNN), которая может изучать задачи, требующие воспоминаний о событиях, которые произошли на тысячи или даже миллионы дискретных временных шагов ранее. Это делает их идеальными для HTR, где порядок букв и слов сильно коррелирован.

Tesseract 4.0, многоязычный движок OCR / HTR с открытым исходным кодом, поддерживаемый Google, был реконструирован летом 2017 года для использования гибридной глубокой нейронной сети CNN / LSTM. Модель обучалась в течение нескольких недель на корпусе из 400 000 строк текста и примерно 4500 шрифтов. Прирост точности огромен, и теперь движок поддерживает более 100 языков.

Несмотря на впечатляющие успехи, достигнутые с помощью методов глубокого обучения, HTR по-прежнему уступает OCR по производительности и точности. Однако есть несколько основных передовых методов, которые помогут улучшить результаты распознавания. К ним относятся

  • Изменение размера изображения. Большинство систем лучше всего работают с изображениями с разрешением 300 или выше. Изменение размера изображений меньшего размера часто может значительно повысить точность распознавания.
  • Бинаризация - бинаризация - это процесс преобразования цветных изображений в черно-белые. Системы HTR не требуют информации о цвете, поэтому большинство из них автоматически конвертируют изображения перед их обработкой. Однако эта процедура может привести к получению неоптимальных изображений, если контраст фона страницы слишком велик, поэтому важно убедиться, что ваши изображения хорошо отделяют текст от фона.
  • Удаление шума - случайное изменение яркости или цвета изображения (шум) также может снизить точность распознавания. Большинство систем HTR пытаются уменьшить шум на входных изображениях, но некоторые типы шума устранить невозможно. Чтобы минимизировать уровень шума, всегда используйте хорошее освещение при сканировании документов.
  • Выравнивание - документы, которые плохо выровнены при сканировании, производят перекошенный вывод, при этом текст проходит через страницу под углом, а не по горизонтали. Это может серьезно повлиять на сегментацию строк и снизить точность распознавания.
  • Лексическое соответствие - точность распознавания также можно повысить, если вывод ограничен лексиконом - списком слов, которые могут встречаться в документе. Обычно это словарь допустимых слов обрабатываемого языка. Этот простой метод может устранить часто встречающиеся ошибки.
  • Полевые модели - полевые модели используют трансферное обучение, как точную настройку, так и переподготовку головы, чтобы расширить существующую модель, обучая ее на дополнительных наборах данных, специфичных для предметной области. За счет сокращения диапазона входных данных, которые должна распознавать каждая модель, модели для конкретных месторождений часто имеют лучшую производительность и более высокую точность.

В тех случаях, когда компьютеры не могут точно оценить текстовые или рукописные данные, имеют низкую уверенность в своих выводах или сталкиваются с ситуациями с исключениями, запасным вариантом является создание рабочего процесса с участием человека в цикле для правильной идентификации того, что было написано. . Другими словами, человека просят прочитать, о чем говорится, и набрать ответ. При таком подходе общий рабочий процесс может быть очень точным, даже если OCR и HTR не справляются с определенными ситуациями. К ведущим поставщикам этих сервисов непрерывного рабочего процесса относятся Alegion и Figure Eight.

Наконец, для тех, кто заинтересован в более глубоком изучении этих областей, ежегодно проводится несколько важных технических конференций по анализу и распознаванию документов:

Новые методы глубокого обучения произвели революцию в области анализа документов и текста и способствуют значительным улучшениям в современных технологиях. Получение информации из неструктурированных данных, собранных в статических документах, имеет широкое применение, и постоянно появляются новые варианты использования. Непостижимые объемы данных и идей в настоящее время скрыты в миллиардах физических документов и PDF-документов. Представьте себе интеллект и информированные действия, которые ваш бизнес может реализовать с помощью этих новых технологий.