Событие: первый хакатон WorkFusion

Задача: создать модель извлечения информации (образцы документов: счета-фактуры) ровно за 8 часов.

Участники: 6 команд, представляющих партнеров WorkFusion: EPAM (5 участников), Cognizant (2), Capgemini (2), EY (3), HCL (2) и InfoSys (2).

Помимо полного набора презентаций и панельных дискуссий, первый день конференции Ascend New York ознаменовался новым захватывающим событием для партнеров WorkFusion и разработчиков RPA: однодневным хакатоном, где победившей команде был предложен денежный приз в размере 2000 долларов.

Подробности задачи были объявлены в 9 часов утра того же дня: построить модель извлечения информации, которая может извлекать восемь полей из неструктурированных документов (например, счетов-фактур).

«Была лишь небольшая предварительная подготовка, - сказал главный судья хакатона и ведущий специалист по данным WorkFusion Арциом Строк.

«Мы сказали им, что собираемся построить модель, но не ее тип, и что все будут использовать WorkFusion AutoML SDK и соответствующие требования к программному обеспечению», - сказал Арциом. «Мы уведомили их за неделю, чтобы они могли опробовать свои машины в SDK, чтобы узнать об этом, и разослали всем одинаковые обучающие видео».

«AutoML SDK», о котором он упоминает, представляет собой комплект для разработки программного обеспечения машинного обучения WorkFusion. Это позволяет любому разработчику - например, нашим конкурентам по хакатону - настраивать модели машинного обучения и обучать их на любом заданном наборе данных. Это предоставляет клиентам инструменты самообслуживания ИИ для использования их существующими командами разработчиков - без необходимости нанимать инженеров машинного обучения или специалистов по обработке данных.

Чтобы организовать соревнование, организаторы хакатона разделили набор ключевых данных на три части: обучающий набор, проверочный набор и тестовый набор. Каждая команда имела доступ к набору для обучения и проверке, но только судьи имели доступ к набору для тестирования.

Целью команд было извлечь данные из восьми полей, каждое из которых имеет свой тип, например уникальный номер идентификатора, дату, цену, адрес электронной почты и т. Д. Кроме того, три из восьми полей были многозначными, в которых участвовали конкуренты. пришлось извлечь несколько значений и правильно сгруппировать их, например, позиции в таблице.

Командам было дано восемь часов на решение этой проблемы, и им было разрешено неограниченное количество попыток отправить своих ботов. Одна энергичная команда представила свою первую модель для оценки примерно в течение часа. Положение дел часто менялось в течение дня, и каждая команда лидировала в разных точках.

По словам Арциома, подходы команд имели как сходства, так и различия. Например, команды выбирали разные стратегии: переходить от поля к полю или готовить базовые показатели по полям. Но каждая команда поставила цель запустить общую готовую модель для создания базовых показателей, а затем построить нормализацию / постобработку (включая коррекцию OCR) для нормализации и форматирования дат или чисел. Затем все они работали над очисткой данных и разработкой функций для улучшения результатов. Кроме того, они создали специальные аннотаторы, чтобы дать моделям представление о предметных знаниях.

В конце концов, только одна команда могла быть победителем, и судьи использовали очень простой и объективный показатель: чистый результат f1 во всех областях. Artsiom отметил, что итоговый результат был чрезвычайно близок по всем направлениям, с оценками от 0,9179 до 0,837, а второе место было всего на 0,0058 балла ниже, чем у победителя!

Поздравляем всех с отличным выступлением и очень захватывающим днем!

Посетите WorkFusion, чтобы узнать больше о том, как наши решения автоматизации на базе искусственного интеллекта могут снизить затраты, увеличить пропускную способность и улучшить предоставление услуг для всего вашего бизнеса.