Наша команда усердно работала последние несколько месяцев, и мы рады объявить о выпуске версии 5 Augraphy, библиотеки для создания обучающих данных по изображениям документов для проектов машинного обучения.

Чтобы оставаться конкурентоспособными на сегодняшнем рынке, компании все больше полагаются на подходы, основанные на данных, и многие из них сталкиваются с одним и тем же препятствием: исторически все их данные печатались и хранятся в бумажном формате.

Получение данных обратно в цифровую форму традиционно требовало дорогостоящей, трудоемкой и подверженной ошибкам транскрипции. Чтобы решить эту проблему, многие организации обращаются к решениям машинного обучения, чтобы снизить затраты и повысить точность, поскольку они ускоряют свои цифровые преобразования.

Войти в ауграфию

Существует множество отличных библиотек для увеличения изображений, но большинство из них сосредоточено на общих преобразованиях изображений, таких как добавление эффекта размытия или артефактов сжатия.

Augraphy специализируется на создании изображений визуально реалистичных документов, с проблемами, которые обычно встречаются во всем мире. Назвать несколько:

  • документ не был правильно выровнен по основанию сканера, и на копии появлялись неровные темные границы
  • перед копированием документ был сложен, и на выходе появилась складка
  • в принтере заканчивались чернила, и части текста светлее других
  • при отправке документа по факсу были обнаружены артефакты и значительный шум
  • документ - старая смятая квитанция, текст на ней со временем тускнеет

Augraphy может воспроизводить гораздо больше эффектов, чем эти (мы многое добавили в этом выпуске!), И вы можете проверить их сейчас на странице проекта, указанной выше. Мы также работаем над серией статей о различных дополнениях, поэтому обязательно проверяйте обновления здесь.

Изменить: первая публикация находится вверху, прокрутите страницу вниз, чтобы увидеть ссылку!

В действии

Вот наглядный пример мощи Augraphy: после запуска конвейера Augraphy по умолчанию над исходным изображением мы получаем несколько новых изображений, которые выглядят как наш исходный, напечатанные на другом бумажном материале и на разных машинах с общими проблемами.

Во-первых, исходное изображение, образец письма-фактуры от Apple Pages:

Здесь у нас есть отпечаток на чем-то вроде квитанции или бумаги в трех экземплярах, с областями с низким уровнем чернил, линиями, которые необходимо заполнить, и нечетким текстом с низким разрешением:

Augraphy также может «печатать» на совершенно разных поверхностях, например, на этой конопляподобной текстуре:

Используй это

Если вы хотите использовать возможности Augraphy в своих собственных проектах, ознакомьтесь с проектом на нашей странице GitHub или загрузите его из PyPI прямо сейчас с pip install augraphy.

Мы будем рады ответить на любые ваши вопросы и помочь вам интегрировать Augraphy в вашу работу. Если у вас возникнут проблемы, откройте Проблема на GitHub и сообщите нам об этом.

Хотите внести свой вклад? Посмотрите этот пост, в котором я объяснил часть структуры проекта и то, что мы ищем.

Подробнее об аугментациях

По мере того, как команда публикует материалы, относящиеся к дополнениям, я буду обновлять список здесь:

  1. Разметка