Тема: Автоматическая классификация документов с помощью машинного обучения, извлечение данных
Области науки о данных: обработка естественного языка, компьютерное зрение, оптическое распознавание символов
Архитектуры: логистическая регрессия, случайные леса
Инструменты: Python , Tensorflow, Sklearn, Tesseract

Вывод. Компания MindCraft разработала революционное программное решение для машинного обучения для автоматической классификации документов и извлечения данных. Модель может автоматически захватывать, распознавать, обрабатывать и классифицировать печатные, рукописные и смешанные документы. Созданная для банковской отрасли, система может применяться в любой области с обширным документооборотом и потребностью в интеллектуальной обработке данных и управлении ими.

Наши основные вызовы

В MindCraft обратился розничный банк с просьбой помочь с классификацией документов. В их организации есть входная очередь документов, отсканированных или захваченных камерой или мобильным телефоном. Прежде чем информацию можно будет обрабатывать, распознавать и хранить, документы необходимо классифицировать по типам. Причина в том, что разные типы текстового контента могут обрабатываться по-разному. Некоторые могут быть легко захвачены полями и распознаны. Остальные, например почерк, требуют ручной маркировки, а затем сохранения. Типы документов могут различаться (как показано ниже):

  • обычное печатное письмо
  • рукописный документ, содержащий таблицу
  • документ смешанного типа

Как видите, качество этих входящих документов далеко от совершенства. Обработка таких неточных данных грозила многими возможными трудностями. Тем не менее, мы решили попытаться справиться с этой проблемой. Условия даже не напоминали классические варианты. Другие платформы классификации документов мирового класса вообще не могли работать с подобными документами.

Создание решения для машинного обучения

Компания MindCraft создала программное решение на основе машинного обучения, которое позволяет обрабатывать и классифицировать эти и подобные документы. Для обучения нашей системы мы взяли около 10 тысяч реальных документов 22 различных типов и начали строить модели.

Первая созданная нами модель была основана на обработке естественного языка. Мы начали с распознавания реальных текстов, содержащихся в этих документах. Затем мы подготовили словарь наиболее подходящих слов. Это позволило нам создать модель, взяв за основу этот текст. Результат при этом достиг 70% признания качества из набора тестовых документов.

Как это часто бывает, наилучшие результаты получаются при использовании смешанных подходов. Итак, мы добавили информацию о том, как выглядит документ с помощью нескольких методов компьютерного зрения. Эта модель привела к примерно 70% точной классификации из 22 типов документов (в основном тех же, что и раньше). Наконец, мы объединили эти два подхода. Через пару часов обучения получил 99% точности на тренировочных данных и около 90% на тестовых наборах данных.

Поезд точности: 0.990167 тест: 0.891444
Поезд точности: 0.990167 тест: 0.891444
Поезд точности: 0.990167 тест: 0.890909
Поезд точности: 0.990167 тест: 0.891444
Поезд точности: 0.909 0,891444
Поезд точности: 0,990167 тест: 0,891979
Поезд точности: 0,990167 тест: 0,891979
Поезд точности: 0,990167 тест: 0,892513

Результаты

В настоящее время наша модель готова к запуску в производство и использованию для классификации документов. Он позволяет классифицировать десятки различных категорий документов. Переобучение модели поможет со временем при необходимости использовать новые категории. Такая система могла бы автоматизировать различные задачи обработки документов, которые сейчас выполняются вручную. Это приведет к значительному повышению эффективности, особенно для крупных предприятий. Если смотреть не только на классификацию документов, эта система может быть применена ко всему визуальному, что содержит текст — например, распознавание продукта по этикетке и т. д.

Мы хотим поблагодарить наших коллег Анди Босый, Николай Козленко, Алексей Симкив , Вяч Босый и Владимир Сендецкийза плодотворные обсуждения, сотрудничество и полезные советы, а также всей команде MindCraft.ai за постоянную поддержку.

С уважением

Команда MindCraft.ai