Компьютерное зрение - это здорово! Его можно использовать для поиска на фотографиях изображений собак, для автоматической пометки друзей и для различных других вещей, таких как перевод меню в иностранных ресторанах. Исследователи даже утверждают, что компьютерное зрение превосходит человеческие возможности в таких задачах, как распознавание объектов и проверка лица. Мы создали новый набор данных для обнаружения и распознавания текста в естественных изображениях (распознавание текста фотографий). Зачем нужен новый набор данных? Чтение текста в дикой природе не решено! Чтобы понять, почему, давайте рассмотрим, как современный алгоритм распознавания текста фотографий работает с изображениями, которые не были специально выбраны для распознавания текста. Для этого эксперимента мы выбрали набор данных MSCOCO, который аннотирует обычные объекты в их естественном контексте и может собирать самые современные результаты распознавания текста для фотографий.

Результаты показывают ограничения существующих систем распознавания текста для фотографий. Фотография слева содержит много печатного текста, который должно быть легко найти, но даже самые современные системы распознавания текста могут найти только 3 экземпляра текста в автобусе. Чтобы создать вспомогательную технологию, которая могла бы сообщать пассажирам с ослабленным зрением номер и пункт назначения автобуса, приближающегося к остановке, нам необходимо значительно усовершенствовать алгоритмы распознавания текста на фотографиях.

В последние годы крупномасштабные наборы данных, такие как SUN и ImageNet, способствовали развитию понимания сцен и распознавания объектов. Однако в области распознавания текста в естественных изображениях не существует крупномасштабных наборов данных. Поэтому мы решили аннотировать MSCOCO текстовыми аннотациями и назвать новый набор данных COCO-Text. Выбор MSCOCO для аннотаций был захватывающим: объединение текста с аннотациями к объектам позволило бы контекстуальные рассуждения о тексте сцены и объектах, а также о многих других аспектах.

Почему обнаружение и распознавание текста на естественных изображениях все еще так сложно? Мы впервые заметили, что текст в изображениях природных сцен очень разнообразен и на удивление распространен. Около половины изображений в MSCOCO содержат текст в той или иной форме, и в среднем на каждое изображение приходится 2,73 экземпляра текста. Если рассматривать только изображения с текстом, среднее значение составляет 5,46.

Эти два примера демонстрируют разнообразие текста, присутствующего в естественных изображениях. Текст бывает разных языков, масштабов и уровней разборчивости. Некоторые тексты чрезвычайно сложно обнаружить и распознать. Чтобы учесть различные типы текста, мы аннотируем каждый экземпляр набором атрибутов. На первый взгляд изображение справа кажется довольно знаковым. Однако он прекрасно демонстрирует несколько разных типов текста. Первое и самое заметное - это большой «СТОП». Мы относим такой текст к категории машинная печать текст. Напротив, текст под надписью «СТОП» классифицируется как рукописный текст. 86,4% текста напечатано на машине. Только 4,6% текста написано от руки, а 9% - пограничные или из других незанятых категорий. В ходе нашей оценки мы обнаружили, что лучший из доступных алгоритмов распознавания текста для фотографий обнаруживает около 35% машинно-напечатанного текста, но только 21% рукописного текста.

На изображении больше текста. В частности, текст на дорожном знаке на заднем плане. Хотя прочитать его невозможно, некоторые читатели могут распознать уличный знак как знак «не входить». Мы классифицируем текст, который нельзя прочитать как неразборчивый, и текст, который можно прочитать как разборчивый. В целом 60,3% текста разборчиво и 39,7% неразборчиво.

Дорожный знак иллюстрирует еще один ключевой аспект набора данных COCO-Text. При обнаружении и распознавании текста объекты, встречающиеся одновременно с текстом, могут быть очень информативными. Если бы не форма и цвет знака, мы не смогли бы расшифровать текст на знаке «Не вводить». Мы с нетерпением ждем возможности увидеть, как дальнейшие исследования будут использовать множество взаимосвязей между текстом сцены и объектами.

На диаграмме ниже показана частота, с которой объекты в MSCOCO встречаются вместе с текстом. Данные показывают, что наличие определенных объектов очень информативно относительно наличия текста.

Еще предстоит проделать большую работу, чтобы обеспечить надежную работу распознавания текста в повседневных сценах. Однако мы на верном пути! Этот набор данных будет ценным ресурсом для поддержки дальнейших исследований в этой области. Мы желаем вам удовольствия от изучения набора данных (здесь демонстрация для легкого начала) и очень рады видеть, что вы из этого извлечете.

Набор данных и бумага размещены на веб-сайте проекта вместе с API, который помогает загружать, анализировать и визуализировать аннотации, а также выполнять оценки на github.

Увидимся в следующий раз!