Извлечение текста автомобильных номеров: комплексный анализ реального решения на базе AWS ML…

Обзор

В современном быстро развивающемся технологическом ландшафте конвергенция искусственного интеллекта и облачных вычислений открыла новые возможности для решения реальных задач.

Среди них — область Оптическое распознавание символов (OCR), которая открыла множество возможностей в различных секторах при применении к автомобильным номерам.

Способность точно извлекать и распознавать текст с автомобильных номеров вышла за рамки простой идентификации; он стал краеугольным камнем для бесперебойной автоматизации и повышения операционной эффективности.

Рассмотрим многогранное применение распознавания автомобильных номеров.

Для предприятий, которым поручено управлять оживленным автомобильным движением, интеграция этой технологии позволяет оптимизировать процессы и осуществлять быстрые автоматические платежи. Представьте себе парковку, на которой автомобили легко въезжают и выезжают, а платежи обрабатываются в режиме реального времени, что устраняет необходимость в ручных операциях. Это повышает удобство работы пользователей и оптимизирует распределение ресурсов и управление доходами.

Если присмотреться к государственному сектору, то последствия надежного способа получения текста номерного знака будут столь же преобразующими. Правоохранительные органы могут использовать возможности оптического распознавания автомобильных номеров для быстрой идентификации интересующих транспортных средств, помогая во всем: от управления дорожным движением до поиска угнанных автомобилей. Более того, градостроители могут использовать эту технологию для получения ценной информации о структуре дорожного движения, что делает городское планирование более управляемым данными и более гибким.

Углубляясь в деловую сферу, отрасли, непосредственно связанные с автомобилями, могут получить существенные выгоды. Возьмем, к примеру, заправочную станцию. Благодаря распознаванию автомобильных номеров транзакции по заправке можно легко связать с транспортными средствами, а также собрать множество статистических данных о дорожном движении и потенциальных клиентах.

Аналогичным образом, органы по содержанию дорог могут эффективно управлять сбором платы за проезд и контролировать использование платных дорог, увеличивая получение доходов и управление дорожной инфраструктурой.

Эта статья является свидетельством преданности делу и опыта нашей команды, поскольку мы приступили к поиску решения сложностей распознавания автомобильных номеров в среде AWS. Столкнувшись с проблемой определения оптимального сервиса AWS для этой задачи, мы применили эмпирический подход. Наше путешествие привело нас к различным сервисам AWS с уникальными преимуществами, чтобы определить наиболее эффективное решение для точного извлечения текста автомобильных номеров.

На протяжении всего этого пути мы сталкивались с типичными ловушками и препятствиями, которые часто сопровождают внедрение передовых технологий. Эти идеи, основанные на практическом опыте, служат ценными ориентирами для тех, кто ориентируется в области оптического распознавания автомобильных номеров. Наша цель — дать вам знания о том, какой сервис AWS выбрать, и полное понимание того, как преодолевать потенциальные препятствия.

Готовый? Давайте начнем.

OCR на AWS

В рамках комплексного набора веб-сервисов Amazon (AWS) доступны различные прагматичные сервисы искусственного интеллекта (ИИ) и машинного обучения (ML), которые облегчают разработку надежных решений оптического распознавания символов (OCR). Среди них решающую роль играют Amazon Textract, Amazon Rekognition и SageMaker от AWS.

В любом случае, для нашей конкретной задачи директива была ясна: отдать приоритет использованию управляемых сервисов в экосистеме AWS.

В результате наше внимание было сосредоточено на Amazon Textract и Amazon Rekognition, двух инструментальных сервисах, которые идеально соответствуют нашей миссии по созданию эффективного решения для распознавания автомобильных номеров.

Давайте официально представим обе эти услуги, чтобы обеспечить максимальную ясность.

Amazon Textract

Amazon Textract, выдающийся компонент репертуара AWS, представляет собой сложный сервис машинного обучения, предназначенный для извлечения текста и данных из разнообразных документов, изображений и форм. Его основная сила заключается в способности точно и эффективно обрабатывать большие объемы текстовой информации, преобразуя неструктурированный контент в структурированные данные с поразительной точностью. Этот сервис демонстрирует исключительную адаптивность, превосходно справляясь с различными сценариями, такими как обработка счетов, индексирование контента, таблицы и т. д.

Наиболее важные функции включают в себя способность различать различные типы контента в документах, таких как таблицы, формы и текстовые блоки. Такая степень детализации анализа повышает его способность эффективно извлекать соответствующую информацию. Его интеграция с сервисами AWS обеспечивает беспрепятственную передачу данных для дальнейшего анализа и применения. Более того, выявление пар «ключ-значение» и их контекста имеет неоценимое значение, поскольку дает комплексное представление о структурированных данных. Когда мы анализируем предложения AWS по распознаванию автомобильных номеров, Amazon Textract оказывается привлекательным решением, которое потенциально может значительно оптимизировать цели нашего проекта.

Признание Amazon

Amazon Rekognition — это передовой сервис AWS для анализа изображений и видео, предназначенный для получения ценной информации из визуального контента. Его огромная сила заключается в его способности идентифицировать объекты, лица и сцены на фотографиях и видео, а также обнаруживать и распознавать текст в этих визуальных ресурсах. Это делает его бесценным активом в области оптического распознавания символов (OCR), особенно для таких задач, как идентификация автомобильных номеров.

Наиболее важные функции Amazon Rekognition включают расширенные возможности анализа лица, позволяющие обнаруживать черты лица, эмоции и даже распознавать лица. Более того, его возможности по распознаванию текста выходят за рамки простой идентификации и позволяют улавливать мелкие детали изображений. Интеграция настраиваемых меток еще больше расширяет возможности его применения в сценариях модерации контента и обеспечения безопасности.

Для наших усилий способность обнаруживать и распознавать текст на изображениях автомобильных номеров имеет первостепенное значение, и Amazon Rekognition становится надежным соперником в этой области. Его универсальность для работы с различными вариантами использования и бесшовная интеграция с сервисами AWS подтверждают его потенциал внести значительный вклад в достижение целей нашего проекта. Поскольку мы тщательно оцениваем предложения AWS по распознаванию автомобильных номеров, возможности Amazon Rekognition остаются жизненно важным моментом в нашем исследовании.

После завершения внедрения этих услуг мы можем беспрепятственно продолжить наше путешествие.

Шаг 1: Предварительная обработка изображения

Независимо от выбранной услуги, мера предварительной обработки становится необходимой. В нашем случае мы решили использовать возможности Amazon Rekognition для облегчения нескольких предварительных этапов; в частности, извлечение ограничивающей рамки, заключающей в себе номерной знак. Однако путь вперед был далеко не простым: изображения реального мира, снятые под разными углами, в разных условиях освещения и охватывающие множество транспортных средств и форматов номерных знаков, выявили далеко не тривиальные проблемы. Попытка точно получить рамку для номерного знака оказалась сложной задачей.

Отправка только исходного изображения в высоком разрешении оказалась недостаточной, что часто приводило к невозможности обнаружения номерного знака. Это подчеркнуло сложность задачи, подчеркнуло тонкости, связанные с реальными сценариями, и нюансы характеристик номерных знаков в различных контекстах. Путь к успеху потребовал использования инструментов Amazon Rekognition и углубления в предварительную обработку изображений для повышения точности последующих процессов.

Учитывая эти проблемы, мы приступили к тщательной настройке, выполнив ряд сложных шагов предварительной обработки.

Первоначально мы сосредоточились на манипуляциях с цветом.

Понимая важность оптимального представления цветов, мы стратегически преобразовали изображения в оттенки серого. Этот стратегический выбор упростил последующий анализ и уменьшил потенциальные помехи от цветовых вариаций из-за различных условий освещения. Впоследствии наше внимание переключилось на усиление контраста, ключевой метод повышения четкости визуальных элементов.

Взяв в качестве краеугольного камня усиление контраста, мы рискнули заняться постеризацией — методом, который сегментирует изображение в оттенках серого на отдельные, визуально различимые области. Таким образом мы стремились подчеркнуть границу между номерным знаком и его окружением, облегчая его изоляцию и идентификацию.

Продолжая поиск ясности, мы ввели процесс сглаживания.

Этот метод включал в себя стратегическое расположение пикселей для имитации дополнительных оттенков и нюансов, эффективно устраняя разрыв между оттенками серого и более богатым и детальным представлением. Это сложное сочетание методов визуального улучшения, направленное на создание изысканного изображения, сохраняющего суть оригинала и сводящего к минимуму воздействие визуального шума.

Затем мы приступили к обработке значительного объема изображений в Rekognition и обнаружили интригующий феномен: некоторые изображения, на которых номерной знак был успешно распознан в исходном формате, не смогли дать точные результаты после обработки, а некоторые изображения, на которых номерной знак был успешно распознан в исходном формате, не дали точных результатов после обработки, а некоторые изображения, на которых номерной знак был не обнаруженные сначала, теперь распознаются правильно. Это открытие поначалу смутило нас, побудив нас глубже углубиться в основные причины.

При более внимательном анализе выяснилось: подавление шума, хотя и казалось бы полезным, не улучшало способность Rekognition распознавать номерные знаки. Это произошло потому, что базовая модель Rekognition не предназначена исключительно для распознавания номерных знаков. Вместо этого модель использует различные критерии, чтобы определить, присутствует ли номерной знак в кадре — критерии, которые наша предварительная обработка случайно изменила, выделив только высококонтрастные буквы.

В свете этого мы пересмотрели нашу стратегию, приняв более детальный подход. Наша пересмотренная методология заключалась в следующем:

Отправка необработанного изображения. Первоначально мы предоставили Rekognition неизмененное изображение с высоким разрешением, с нетерпением ожидая ответа относительно обнаружения номерного знака и соответствующей ограничивающей рамки.

Условная обработка. В тех случаях, когда первоначальный анализ Rekognition не смог обнаружить номерной знак, мы применили шаги предварительной обработки, подробно описанные ранее. Затем расширенная версия изображения была повторно отправлена в Rekognition для новой попытки обнаружения.

Успешное определение ограничивающей рамки: после того, как Rekognition успешно определила ограничивающую рамку номерного знака, мы перешли к следующему этапу.

Шаг 2. Извлечение текста из автомобильных номеров

На данный момент мы достигли оптимальных результатов обнаружения номерных знаков. После этого мы приступаем к вычислению ограничивающего прямоугольника немного большего размера, чем тот, который изначально определил Rekognition. Такое стратегическое расширение обеспечивает полную инкапсуляцию номерного знака, предоставляя тем самым достаточно контекстуального пространства для других служб на базе искусственного интеллекта, позволяющих обнаруживать наличие номерного знака. Такое намеренное увеличение защищает от потенциальной потери информации, сохраняя при этом сбалансированную визуальную рамку.

Затем мы приступаем к обрезке изображения и применяем процедуры предварительной обработки, подробно описанные ранее, если изображение не подвергалось предварительной обработке.

Полученное изображение представляет собой однородную композицию: центрированный и точно приложенный номерной знак, характеризующийся минимальным визуальным шумом и повышенной контрастностью, и он готов к отправке в выбранную службу оптического распознавания символов.

В ходе нашего первоначального исследования наше внимание было сосредоточено на использовании возможностей Amazon Textract. Этот выбор был основан на наших предыдущих наблюдениях за производительностью Amazon Textract при обработке различных документов, подчеркивающих его надежные возможности. Это привело нас к логическому выводу: благодаря реализации целевых этапов предварительной обработки сервис можно адаптировать под конкретную задачу извлечения текста из автомобильных номеров.

Итак, мы отправили предварительно обработанные изображения в Textract для извлечения текста — шаг, который, как мы ожидали, будет простым, учитывая четкость текста. Однако реальность разошлась с нашими ожиданиями. Мы предполагали, что предоставление Textract чистых высококонтрастных изображений даст результаты, аналогичные его работе с документами.

К сожалению, результатом оказался холодный душ. Независимо от того, сколько изображений было обработано, производительность Textract не обеспечивала полезных результатов. Textract явно был оптимизирован для задач, ориентированных на работу с документами. Наше предположение о том, что предварительно обработанные изображения с усиленным контрастом будут соответствовать возможностям Textract, оказалось ошибочным. В частности, когда было поручено извлечь текст из номерных знаков, производительность Textract снизилась, по крайней мере, в нашем случае использования.

Следовательно, мы выбрали Rekognition как универсальный инструмент для извлечения текста.

В ходе нашей работы мы вновь обратились к тем же предварительно обработанным изображениям, которые ранее были отправлены в Textract. На этот раз мы получили благоприятные результаты. Наш подход заключался в комплексной оценке решения с использованием изображений различной степени сложности. Интересно, что хотя изображения с оптимальными условиями были точно обнаружены без необходимости предварительной обработки, более сложные изображения оказались успешными только после прохождения предварительной обработки.

Шаг 3: Постобработка вывода

Тогда на первый план вышла проблема постобработки. После успешного извлечения текста многие случаи требовали осторожного обращения. Вот несколько примеров:

Одним из примечательных аспектов, который всплыл на поверхность, была неспособность Rekognition точно различать определенные символы кириллицы и латиницы. В извлеченном тексте визуально идентичные буквы часто были закодированы с использованием неправильных битовых последовательностей UTF8. В результате эти буквы интерпретировались как символы кириллицы, в результате чего создавался текст номерного знака, который отличался от исходного изображения.

К сожалению, в Rekognition отсутствует механизм выбора алфавита во время извлечения. Следовательно, необходим этап постобработки, чтобы исправить это несоответствие. Первая процедура постобработки включает в себя удаление всех букв кириллицы — операция, связанная с тем фактом, что эти символы никогда не присутствуют в исследуемых номерных знаках в нашем случае.

Другая важная задача постобработки связана с повторной сборкой номерных знаков, занимающих несколько строк, например, на мотоциклах. В этом начинании возможности Rekognition снова оказываются ценными. Используя API маркировки, Rekognition позволяет понять, запечатлен ли на изображении автомобиль или мотоцикл. В случаях обнаружения мотоцикла извлеченный текст необходимо реконструировать и отформатировать в одну строку.

Эти процедуры постобработки подчеркивают сложное взаимодействие между извлечением данных с помощью ИИ и нюансами, присущими текстовым данным. Сочетание автоматического анализа и последующей обработки под руководством человека гарантирует, что извлеченный текст точно соответствует реальным сценариям, что приводит к созданию надежного и надежного решения для распознавания автомобильных номеров.

Выводы

В этой статье мы представили наш эмпирический подход к созданию оптимального решения для распознавания автомобильных номеров на платформе AWS, используя возможности ее управляемых сервисов. Мы сравнили Amazon Textract и Amazon Rekognition и оценили их производительность на наборе данных изображений автомобильных номеров. Мы также обсудили необходимые этапы предварительной обработки, такие как изменение размера, обрезка и улучшение изображения, которые могут повысить точность процесса оптического распознавания символов. Мы обнаружили, что Amazon Rekognition — лучший сервис для извлечения текста автомобильных номеров, поскольку он обеспечивает высочайшую точность, минимальную задержку и максимальную гибкость среди сервисов AWS.

Мы надеемся, что эта статья была полезна для более глубокого понимания OCR.

О Proud2beCloud

Proud2beCloud – это блог beSharp, итальянского главного партнера-консультанта APN, эксперта по проектированию, внедрению и управлению сложными облачными инфраструктурами и расширенными сервисами на AWS. Прежде чем стать писателями, мы были экспертами по облачным технологиям, ежедневно работающими с сервисами AWS с 2007 года. Мы — голодные читатели, разработчики инноваций и искатели драгоценных камней. На Proud2beCloud мы регулярно делимся нашими лучшими профессиональными советами по AWS, информацией о конфигурации, подробными новостями, советами и рекомендациями, практическими рекомендациями и многими другими ресурсами. Принимайте участие в обсуждении!