Компания Elder Research в партнерстве с Excella Consulting разработала комплексное решение для оценки рисков грантов в облаке AWS клиента. Он использовал анализ текста и классификацию документов для извлечения результатов CPA из аудиторских отчетов и присвоения оценок риска получателям федеральных грантов.

Соревнование

Клиенту нужно было оптимизировать стратегии борьбы с мошенничеством, расточительством и злоупотреблениями при подаче заявок на федеральные гранты. Получатели гранта должны пройти единый аудит, проводимый независимым сертифицированным бухгалтером (CPA), как это определено в Циркуляре A-133 Управления управления и бюджета США. Аудит должен убедиться, что получатель соблюдает требования федеральной программы в отношении того, как могут быть использованы деньги. Одним из его ключевых элементов является раздел «Выводы», в котором независимые аудиторы перечисляют случаи, когда объект аудита не следует передовым методам и требованиям финансовой или государственной программы грантов. Цель проекта состояла в том, чтобы использовать интеллектуальный анализ текста и машинное обучение для извлечения независимых результатов CPA из отчетов и их использования для оценки риска получателя гранта.

Решение

Elder Research заключила партнерское соглашение с Excella Consulting для создания комплексного решения в облаке AWS клиента. Решение включало в себя прием данных, неконтролируемое и контролируемое машинное обучение, а также мощную визуализацию панели инструментов и инструмент детализации на основе Looker.

Клиент получает около 50 тысяч проверок в год. Отчеты об аудите представляют собой многодокументные PDF-файлы размером от десятков до сотен страниц, состоящие из машиночитаемого текста и отсканированных изображений. Мы извлекли около 12 миллионов страниц PDF (примерно за пять лет аудита), провели анализ текста и включили другие источники структурированных данных для присвоения получателям оценок риска. Ансамбль моделей, включающий сверточную нейронную сеть (CNN) и рекуррентную нейронную сеть (RNN), использовался для классификации страниц во время анализа текста. Мы обнаружили, что структурированные данные задокументировали только около половины фактических выводов. Система классификации документов идентифицировала результаты аудита с точностью 81% и коэффициентом полноты 95%, как показано на рисунке 1.

Рис. 1. Кривая Precision-Recall нашего алгоритма классификации страниц. Черная линия — это базовая наивная байесовская модель, а красная линия — наш гибридный алгоритм CNN/RNN, который доминирует над базовой моделью и превысил цель проекта: точность 80 % и полнота 95 %.

В качестве следующего шага мы в настоящее время работаем над извлечением и анализом текста каждой отдельной находки, используя гибридную модель CNN/RNN, работающую с детализацией символов.

Результаты

В настоящее время этим инструментом пользуются более 260 аудиторов, следователей, оценщиков и юристов, и он помог запустить или поддержать восемь аудиторских проверок в четырех разных регионах, три оценки в трех регионах и один крупный исследовательский проект. Наш клиент назвал этот проект одной из пяти самых важных своих инициатив.
Elder Research помогала клиенту на протяжении всего процесса гибкой разработки, от составления карт целей машинного обучения до выбора инфраструктуры/инструментов и источников данных. Проект был расширен за счет включения большего количества источников данных, интеллектуального анализа текста, анализа графиков и других передовых технологий и целей.

Первоначально опубликовано на https://www.elderresearch.com.