Эта статья является частью серии Academic Alibaba и взята из статьи Qiangpeng Yang под названием Новый модуль начального текста с деформируемым объединением PSROI для многонаправленного обнаружения текста сцены. , Mengli Cheng, Wenmeng Zhou, Yan Chen, Minghui Qiu, Wei Lin и Wei Chu, принятые IJCAI 2018. Полностью статью можно прочитать здесь.

Обнаружение текста сцены — расшифровка текста, который появляется в окружающей среде непосредственно из видеозаписи с камеры — является одной из самых больших проблем, с которыми сталкиваются приложения компьютерного зрения. Это также одна из самых заманчивых областей для исследователей, потому что потенциал мощной технологии OCR огромен. Это имеет большое значение для многоязычного перевода, поиска изображений и автоматического вождения (представьте себе автомобиль, который может читать дорожные знаки и номерные знаки).

Причина, по которой распознавание текста сцены настолько сложно, заключается в том, что, во-первых, текст сцены охватывает широкий спектр контекстов, таких как виды улиц, постеры, меню, сцены в помещении и многое другое. Во-вторых, текст сцены сильно различается по содержимому переднего и заднего плана, уровню освещения, заусенцам и ориентации.

Теперь техническая команда Alibaba разработала IncepText, свой новый инструмент распознавания текста сцены, который обеспечивает современную производительность, отходя от предыдущих тенденций и вместо этого выбирая подход сегментации экземпляров. Учитывая его высокую производительность при тестировании, они с тех пор включили его в качестве API в свой инструмент OCR для широкой публики.

Переход от регрессии к сегментации экземпляров

Как правило, предыдущие подходы к обнаружению текста сцены использовали косвенную или прямую регрессию, при этом методы косвенной регрессии предсказывали смещения от предложений блоков, в то время как прямая регрессия выполняла граничную регрессию, предсказывая смещения от заданной точки.

Вместо этого Alibaba решила использовать подход сегментации с учетом экземпляров, опираясь на пример FCIS. Учитывая, что обнаружение текста, в отличие от стандартного обнаружения объектов, ограничено огромным разнообразием масштаба, соотношения сторон и ориентации текста, команда разработала специальный модуль Inception-Text для решения этих проблем. Этот модуль был вдохновлен модулем Inception от GoogLeNet. Другим важным нововведением стала замена слоя объединения PSROI в FCIS деформируемым объединением PSROI. Стандартный пул PSROI может обрабатывать только горизонтальный текст, в то время как текст сцены почти всегда существует в произвольной ориентации.

Разветвление во всех направлениях

Чтобы решить проблему различных соотношений сторон и масштабов, модуль Inception-Text использует сверточные ядра с несколькими ветвями.

В конце каждой ветви затем добавляется деформируемый сверточный слой в форме деформируемого объединения PSROI для решения проблемы множественных ориентаций.

Деформируемый сверточный слой может использовать адаптивное рецептивное поле для захвата областей с разными смещениями. Деформируемая свертка допускает свободную деформацию сетки выборки, в отличие от обычной сетки выборки при стандартной свертке. Эта деформация обусловлена ​​входными функциями, что означает, что рецептивное поле корректируется при повороте входного текста.

В тестах с другими ведущими в отрасли моделями с использованием трех общедоступных эталонных наборов данных варианты IncepText регулярно демонстрировали современную производительность. Примечательно, что для улучшения подходов IncepText не использовались дополнительные данные, в отличие от других протестированных методов.

Полностью статью можно прочитать здесь.

Алибаба Тех

Подробная информация о новейших технологиях Alibaba из первых рук → Facebook: Alibaba Tech». Твиттер: «AlibabaTech».