Каждому проекту машинного обучения необходимы данные обучения, сбор этих данных имеет решающее значение для успеха проекта, а для решения многих сложных проблем это тоже непростая задача.

Что ж, робот-счетчик Россум не исключение! Чтобы научить наши машины распознавать поля данных в счетах-фактурах, нам нужны тысячи примеров счетов-фактур. Эти счета также должны включать «правильные ответы», которые мы хотим получить от робота - значение каждого поля данных, которое мы извлекаем, вместе с его точным расположением на странице. Мы используем эти счета для обучения всем этапам захвата - локализации поля данных, а также нашим индивидуальным этапам распознавания текста.

Поскольку данные обучения являются ключевыми для нашего проекта, мы уделяем им много внимания как с технической, так и с деловой точки зрения. К сожалению, хотя многие из наших партнеров предлагают нам счета за обучение, они редко включают расположение полей данных, поэтому у нас есть внутренняя группа аннотаторов, чья работа заключается в том, чтобы маркировать счета всей необходимой информацией с помощью наших внутренних инструментов.

Однако нам все еще нужны счета для обучения нашей системы! В странах, где у нас уже есть партнеры, которые используют наш сервис, это проще, поскольку мы можем использовать счета, которые были отправлены в наш облачный API - мы даже предлагаем службу обратной связи, где пользователи могут специально отмечать счета, которые были обработаны неправильно.

Тем не менее, мы стремительно расширяем наши услуги в большем количестве стран, где мы еще не стремимся создать базу пользователей. Чтобы ускорить наши усилия, мы ищем в Интернете счета-фактуры. Удивительно, что можно найти, если копаться в общедоступных данных! Мы используем в основном автоматизированные стратегии, но также используем внешних помощников, которые предоставляют данные более высокого качества, которые также могут быть использованы в качестве исходных данных для дальнейшего автоматического поиска. Надеюсь, мы познакомим вас с некоторыми из наших автоматизированных стратегий в некоторых последующих статьях блога.

(Иногда результаты наших автоматических загрузок могут быть немного странными. Есть сайт под названием «Автомобили ниже счета-фактуры» с множеством фотографий автомобилей, которые мы рассматриваем как потенциальные счета-фактуры. Кроме того, наш OCR был настолько сбит с толку, внезапно увидев автокресло вместо документа, в котором была сделана небольшая пауза, чтобы научить хороший классификатор отличать их от реальных счетов.)

Во многих проектах машинного обучения возникают проблемы с получением хороших обучающих данных. Это большая проблема, например, для усилий чат-ботов или создания роботов, которым необходимо научиться выполнять действия, влияющие на их среду. Мы рады, что на самом деле у нас есть идеальная формула для сценария контролируемого машинного обучения, о котором мечтает каждый практикующий ML - наши четкие входные данные и целевые метки означают четкий путь для наших нейронных сетей.