Обнаруживайте текст на изображении, используя только ЦП, и получайте более быстрые выводы, чем ГП.

Обнаружение текста — это широко используемый вариант использования в области компьютерного зрения, целью которого является локализация текста в цифровом изображении. Несколько алгоритмов или подходов могут выполнить эту задачу с высокой производительностью. Однако большинство этих алгоритмов представляют собой подходы глубокого обучения, для работы которых требуются большие вычислительные мощности, такие как графические процессоры. Это увеличивает общую стоимость проекта, а если будут миллионы изображений, на которых мы хотим детектировать текст в режиме реального времени, то стоимость увеличится. Более того, даже модели глубокого обучения, работающие на графическом процессоре, имеют ограниченные возможности, когда мы хотим, чтобы наша модель предлагала вывод в режиме реального времени.

Что, если мы сможем делать выводы на изображениях, используя ЦП и в несколько раз быстрее, чем может предложить ГП? Это возможно с помощью набора инструментов, предоставленного Intel, известного как OpenVINO.

OpenVINO означает «Открытый визуальный вывод и оптимизация нейронной сети». Intel предоставляет этот набор инструментов, чтобы упростить вывод моделей глубокого обучения и помочь разработчикам создавать экономичные и надежные приложения глубокого обучения [1].

В этой статье будет рассказано, как использовать OpenVINO в python для создания модели обнаружения текста, которая может делать выводы по более чем 50 изображениям в секунду. Прежде чем перейти к части кода, вы должны установить библиотеки openvino и opencv для Python, используя следующие команды: pip install openvino и pip install opencv-python.

Код:

Полный код с весовыми файлами добавлен на: https://github.com/prateekchhikara/text_detector_cpu

Примечание:
Чтобы узнать больше о том, как все работает внутри, вы можете ознакомиться с документацией OpenVINO.

Рекомендации