Документируйте методы устранения искажений в глубоком обучении для компьютерного зрения

Захват изображений документов с помощью портативных устройств сегодня является нормой. Эти изображения можно легко передать по почте, в чате, а также сохранить на жестком диске для использования в будущем. Однако при случайном захвате документов часто остаются складки и искажения, которые трудно исправить с помощью обычных процессов редактирования. Было предложено довольно много алгоритмов обработки изображений и глубокого обучения для преобразования изображений документов обратно в их исходные структуры.

Алгоритмы обработки изображений (хотя и сами по себе достаточны для устранения прямолинейных дефектов в изображениях документов) часто не оправдывают ожиданий при доставке изображений документов со складками или изгибами. Некоторые из самых первых предложенных алгоритмов обработки изображений для работы с изображениями документов появились еще в 2000 году. Когда мы думаем о разнообразии сложенных документов, которые могут использоваться в качестве входных данных для модели, мы приходим к легкому выводу, что обработка изображений для устранения искажений документа это наивный подход, и его нельзя использовать для моделирования понижения деформации даже в половине документов, которые он видит.

Сегодня большинство алгоритмов устранения искажений документов с помощью компьютеров основаны на методах глубокого обучения. Однако глубокое обучение не лишено проблем. Мы находим, что одна из самых больших проблем использования глубокого обучения для устранения искажений документов заключается в том, что нет никаких оснований для устранения искажений документа. Мы могли бы подумать, что изображения отсканированных документов можно использовать в качестве основы для предсказания деискретов, но поскольку CNN следуют мультипликативному подходу, мы не можем ожидать, что сеть будет сдвигать пиксели и создавать деформации за счет перекоса или растяжения изображений.

Методы на основе CNN были впервые применены Das et. al [1], где использование сети ограничивалось выявлением складок бумаги. Это срабатывало во многих случаях, но в некоторых случаях приводило к неудачам.

Как видно на изображении (взято из дополнительной папки [1] здесь), мы обнаруживаем, что этот метод в основном дает сбой и иногда создает неровности в документах, которые он искажает. Это еще больше усиливает мыслительный процесс о том, что должен использоваться метод, основанный на глубоком обучении, и использование обработки изображений или простой оптимизации может нарушить dewarps, поскольку пространство поиска слишком велико для этой проблемы. Как мы видим, Das et al. рвется даже с четырьмя складками на изображении.

DocuNet

Возможно, один из первых методов создания сквозной модели для деформации изображений документов был предложен Ма и др. [2] в DocUNet. Ма не только предложил DocUNet, но также разработал тестовый образец и метод генерации деформированных изображений документов на основе реальных данных.

В DocUNet создание деформированных изображений документа начинается с создания M x M возмущенной сетки. Эти возмущенные сетки формируются из случайных выбранных точек и прикладываемых к ним деформаций различной степени. Затем каждая сетка используется при сканировании документов на планшете, и этим методом создаются изображения с уменьшенным искажением. Деформация сетки в этом случае находится путем инвертирования сетки. Инвертированная сетка может преобразовать изображения, сгенерированные в их исходные отсканированные формы. В оригинальной рукописи DocUNet утверждается, что с помощью этого метода деформации они построили огромный набор данных из 100 тысяч изображений.

Таким образом, мы обнаруживаем, что DocuNet решает одну из самых больших проблем, с которыми сталкиваются алгоритмы глубокого обучения, предоставляя основную истину для обучения модели - противодействующей сетке устранения искажений. Изображения, созданные методами, предложенными DocuNet, не имеют особой связи с реальным миром, поскольку они искажены на двумерной сетке и имеют только двухмерные искажения. С тех пор были предложены более совершенные методы генерации данных, которые лучше работают, когда дело доходит до обобщения модели для реальных данных и изображений.

Сеть

Работа Ма и др. не только дает нам метод создания деформированных изображений документов, но также предлагает метод устранения искажений изображений. Сеть DocuNet, предложенная Ма, имеет многослойную архитектуру U-Net с небольшой конкатенацией в стеке. Полная архитектура, взятая из оригинального документа, приведена ниже:

Сеть разделяется и производит прямое отображение y1 из выходных данных первой U-Net. Те же потери, применяемые в y2, также применяются в y1. Затем y1 объединяется с выходной картой характеристик первой U-Net и служит входными данными для второй U-Net. © представляет оператор конкатенации. y2 можно напрямую использовать для создания исправленного изображения.

Потеря

Потеря определяется как комбинация поэлементных потерь и потерь, инвариантных к сдвигу. Чтобы быть более конкретным, потеря по элементам - это потеря L2, которая помогает модели точно изучить сетку, в то время как потеря, инвариантная к сдвигу, гарантирует, что разница между значениями двух случайных пикселей (i, j) и (k, l) близки по наземной истине и сформированной сетке.

Элементная потеря:

Инвариантная потеря сдвига:

Где y обозначает значения в прогнозируемой сетке, а y * обозначает основную истину.

Полученные результаты

Результаты [2] можно визуализировать ниже:

DocuNet, будучи первой предложенной сквозной моделью глубокого обучения, устанавливает ориентир для будущих моделей, которые нужно улучшать. 130 изображений из 65 страниц были сняты под разными углами и выпущены в качестве эталонного набора данных. Используются показатели для оценки методов компенсации искажений, такие как MS-SSIM (многомасштабный индекс структурного сходства) и LD (локальное искажение), и результаты по этим показателям публикуются.

DewarpNet

После недавнего всплеска глубокого обучения в области устранения искажений документов Дас и др. . предложил метод генерации данных значительно лучший по сравнению с DocuNet [3]. По сравнению с двумерной сеткой, предложенной DocuNet, которая генерировала двумерные деформации, метод, предложенный в [3], использовал трехмерные сетки для выполнения трехмерных деформаций. По сути, метод заключался в захвате деформаций в реальных документах под разными углами, чтобы получить трехмерную сетку, и ее увеличении за счет вращения, обрезки и изменения размеров для получения различных сеток. Эти сетки затем применяются к отсканированным изображениям для создания искаженных изображений и соответствующих им истинных искажений земли. Наряду с обратным отображением, которое помогает уменьшить деформацию документа, этот метод также предоставил дополнительную информацию об изображении 2D документа в виде карт глубины 3D, карт нормалей и т. Д. Сгенерированный набор данных называется doc3D и может быть загружен здесь.

Сеть

Наряду с методом генерации данных Дас и др. предложили архитектуру нейронной сети для устранения искажений изображений документов, используя обратное отображение и трехмерную координатную карту в качестве основы для обучения. Архитектура, аналогичная DocUNet, представляет собой архитектуру стекового кодировщика-декодера, обучение которой происходит в три этапа. На первом этапе первый кодер-декодер стека, U-Net, называемый сетью форм, регрессирует трехмерную форму документа из изображения документа. Следующий этап состоит из вторичной сети стека, сети кодировщика-декодера с блоками Dense-Net, которая преобразует трехмерные координаты в координаты текстуры. На последнем этапе есть сеть доработки, которая служит модулем постобработки, исправляя освещение и другие проблемы с деформированным изображением документа. Модуль уточнения состоит из двух блоков декодера кодировщика в стиле U-Net, один из которых используется для предсказания нормалей поверхности, а другой предсказывает карты затенения. Подробный рисунок, подробно описывающий архитектуру сети, представлен ниже:

Здесь C и B - точные данные для трехмерных координат и обратного отображения соответственно.

Потеря

Обучение сети проходит в два этапа. На первом этапе сеть форм и сеть наложения текстуры обучаются индивидуально. Сеть форм обучается с накопленными потерями, выраженными как:

Где ∇C = || (∇ₓC, ∇ᵧC) || ₂ представляет горизонтальные и вертикальные градиенты изображения трехмерной координатной карты C. Градиенты изображения помогают модели узнать конкретно о гребнях и впадинах на координатной карте C.

Сеть текстур обучается минимизировать разницу между обратным отображением и сгенерированной обратной сеткой. Математическая форма убытка выражена ниже:

Первый член представляет собой потерю L1 на предсказанном обратном отображении по сравнению с исходной картой, а второй член - это потеря L2 между предсказанным неискажением документа и исходным неискажением, выраженный как потеря восстановления.

На втором этапе обучения и форма, и сеть текстур обучаются одновременно, а их потери линейно взвешиваются и суммируются. Потери для сети тогда выражаются как:

Результаты и сравнения

Сравнение с DocUNet приводится в статье DewarpNet. Сравнение проводится не только по MS-SSIM и LD, но и по OCR с такими метриками, как Edit Distance и CER. Таблицы для этого представлены ниже:

использованная литература

  1. С. Дас, Г. Мишра, А. Судхаршана и Р. Шилкрот, «Обычный сгиб: использование четырех сгибов для преобразования печатных документов с одного изображения», in Proceedings of the ACM Symposium on Document Engineering, 2017, pp. 125–128.
  2. Х. Б. Дж. У. Д. С. Кэ Ма, Чжисинь Шу, «Docunet: деформация изображения документа через сложенную u-сеть», in Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, 2018.
  3. С. Дас, К. Ма, З. Шу, Д. Самарас и Р. Шилкрот, «Dewarpnet: устранение искажений документа с одним изображением с помощью многослойных трехмерных и двумерных регрессионных сетей», in Proceedings of the IEEE International Conference onComputer Vision, 2019, pp. 131–140

Примечание редактора: Heartbeat - это онлайн-публикация и сообщество, созданное авторами и посвященное предоставлению первоклассных образовательных ресурсов для специалистов по науке о данных, машинному обучению и глубокому обучению. Мы стремимся поддерживать и вдохновлять разработчиков и инженеров из всех слоев общества.

Независимая редакция, Heartbeat спонсируется и публикуется Comet, платформой MLOps, которая позволяет специалистам по обработке данных и группам машинного обучения отслеживать, сравнивать, объяснять и оптимизировать свои эксперименты. Мы платим участникам и не продаем рекламу.

Если вы хотите внести свой вклад, отправляйтесь на наш призыв к участникам. Вы также можете подписаться на наши еженедельные информационные бюллетени (Deep Learning Weekly и Comet Newsletter), присоединиться к нам в » «Slack и подписаться на Comet в Twitter и LinkedIn для получения ресурсов, событий и гораздо больше, что поможет вам быстрее и лучше строить модели машинного обучения.