Понимание компьютерного зрения

Природа трудилась в огромных лабораториях Земли миллионы лет, чтобы улучшить человеческое зрение. Поэтому неудивительно, что лучшие умы мира только недавно сумели научить компьютеры видеть и начать понимать окружающий мир [0]. В то время как Природа работала с нейронами, стержнями, колбочками и механизмами эволюции, чтобы направлять ее, компьютерные ученые и инженеры работают с математикой, матрицами и вычислительной мощностью, чтобы дать компьютерам возможность видеть и понимать визуальный мир.

Удивительно, насколько мы воспринимаем наши визуальные возможности как должное. В то время как компьютеры могут легко выполнять умопомрачительные подвиги математической гимнастики, они с трудом могут сравниться с показателями трехлетних детей, когда дело доходит до идентификации кошек. Это красиво выражено в парадоксе Моравца. Этот комикс XKCD основан на этом парадоксе -

Компьютерное зрение занимается методами, которые используются для анализа, понимания и извлечения полезной информации из визуальных данных (изображений / видео). Компьютерное зрение (CV) также граничит с важными областями распознавания образов и обработки изображений. В то время как алгоритмы распознавания образов находят закономерности или закономерности в данных, обработка изображений связана с операциями, которые преобразуют изображение из одной формы в другую. Типичные операции с изображениями включают повышение резкости, удаление шума и изменение ориентации изображения. Приложения CV позволили решить ряд проблем, существенно повлиявших на нашу жизнь. Оптическое распознавание символов или OCR - одна из таких задач, которая имеет огромную практическую полезность. OCR - это преобразование текста, который мы видим вокруг нас в виде вывесок, печатного или рукописного текста, в его цифровую копию. Решение этой проблемы позволило Google определять и расшифровывать номера домов. Теперь ту же технологию можно использовать для идентификации вывесок, которые затем можно перевести на разные языки. Распознавание лиц - еще одно приложение для резюме, которое используется для подсказки тегов на фотографиях в Facebook.

Компьютерное зрение - это не только распознавание лиц и оцифровка печатного текста. Компьютерам могло бы показаться немного более интересным и действительно почетным, если бы они использовались правоохранительными органами для поиска преступников. Именно это и удалось сделать инженерам CV, автоматизировав видеонаблюдение. Одной из целей наблюдения является наблюдение за интересующей областью, например, за переполненным рынком, для обнаружения подозрительной активности. Ясно, что нанимать людей для анализа видеозаписей на всю оставшуюся жизнь не только абсурдно, но и безнадежно скучно. Как специалисты по компьютерному зрению заставляют компьютер делать это?

Чтобы искать подозрительную активность, мы должны иметь возможность отслеживать объекты (людей, машины) в кадре. Затем нам нужно понять их поведение: X существует уже много лет; Y продолжает кружить по рынку - это кажется подозрительным! Наконец, необходимо принять решение, является ли поведение причиной для беспокойства или нет. Это кратко изложено в следующей блок-схеме:

Многолюдное место, подобное торговому центру, - это вихрь активности и движения. Если бы ваши глаза следили за одним человеком, который движется по торговому центру, он направил бы всю свою энергию на этого человека, затемняя все, что происходит на заднем плане. Мы часто смотрим в фиксированную точку в пространстве и забываем обо всем остальном, что находится в поле нашего зрения. Именно этому учат компьютеры. Когда на переднем плане видео движутся люди, фон, который будет оставаться более или менее статичным в течение определенного периода времени, вычитается, тем самым отчетливо выделяя движущиеся объекты на переднем плане. Следующий рисунок объясняет задействованную концепцию -

Выделена движущаяся лодка, а относительно неподвижные воды на заднем плане удалены. Наша команда в HyperVerge реализовала это решение, и вот небольшой видеоролик, демонстрирующий производительность нашего алгоритма на примере видео. Обратите внимание на красную рамку вокруг каждого человека, который движется по видео.

Такой подход к обнаружению объектов в CV-литературе довольно интуитивно понятен на жаргоне, который называется вычитанием фона.

Технологии, основанные на компьютерном зрении, революционизируют мир своими новаторскими решениями. Наша команда в HyperVerge также глубоко извлекла из своих неисчерпаемых ресурсов, чтобы разработать прекрасные решения проблем.

В нашем следующем посте о компьютерном зрении мы углубимся в глубину технологии и проиллюстрируем ряд приложений, которые неуклонно набирают популярность. А пока позвольте Глазу компьютера следить за вами!

Фотография на обложке: http://infinitecreations.deviantart.com/art/BioMech-Eye-168367549

Первоначально опубликовано на сайте hyperverge.co 26 сентября 2015 г.

Понимание компьютерного зрения

Вопросы по теме