История: с чего все началось

Это было летом 1966 года. Сеймур Пейперт, который только что присоединился к искусственному интеллекту, поручил летний проект группе из 10 студентов, включая себя. [Источник оригинальной бумаги]

Проект был посвящен анализу и распознаванию объектов в сцене и их классификации по областям, таким как
1. Вероятные объекты
2. Вероятные фоновые области
3. Хаос

Конечная цель состоит в том, чтобы ОБЪЕКТНАЯ ИДЕНТИФИКАЦИЯ фактически именовала объекты, сопоставляя их со словарем известных объектов.

Нет ресурса, с помощью которого мы можем получить представление о результатах проекта. Скорее всего, они бы не добились успеха, но они заложили основу для новой области искусственного интеллекта.

С тех пор мы прошли долгий путь, теперь нам удалось интегрировать искусственный интеллект в компьютерное зрение, и ряд исследователей тратят свои дни и ночи на то, чтобы продвинуть эту идею компьютерного зрения вперед.

Но что такое Computer Vision на самом деле?

По данным Википедии,

«Компьютерное зрение — это междисциплинарная научная область, изучающая, как можно заставить компьютеры получать высокоуровневое понимание цифровых изображений или видео. С инженерной точки зрения он стремится автоматизировать задачи, которые может выполнять зрительная система человека».

Проще говоря, компьютерное зрение — это наука о том, чтобы дать машинам человеческую способность обрабатывать любые изображения, видео и напрямую извлекать информацию из них, как это делаем мы, люди.

Типичные варианты использования компьютерного зрения включают сканирование штрих-кода, распознавание лиц, поиск изображений Google, Pinterest Lens, Amazon GO, приложения дополненной реальности, такие как Pokemon go, оптические распознаватели символов, режим панорамы в нашей камере, роботы, следующие за линией, и современный гуманоид. робот София, и если вы технарь, вы можете знать о приложениях «не хот-дог» от Цзянь Янга из Кремниевой долины и «Шестом чувстве» Пранава Мистри.

Благодаря новым достижениям в этой области возможности безграничны. Возможно, скоро мы сможем увидеть, как новые приложения навсегда займут нашу повседневную жизнь. Например, распознавание номерных знаков на каждом сигнале и автоматический вызов чаллана за нарушение правил дорожного движения, указание машине искать ключи в нашем доме, роботы, доставляющие наши продукты, беспилотные автомобили или даже робот-питомец.

Дисциплины компьютерного зрения

1. Распознавание
2. Анализ движения
3. Реконструкция
4. Восстановление

1. Признание

Распознавание связано с определением того, содержат ли данные изображения некоторые определенные объекты, жесты, а иногда и положение на изображении, где они присутствуют.

Некоторые из подзадач раздела «Распознавание» включают
i. Классификация объектов: классификация объектов из предопределенного набора классов/категорий.

ii. Локализация: поиск объектов на изображении.

III. Оценка позы: - оценка положения или ориентации определенного объекта относительно камеры.

IV. Распознавание лиц: – идентификация лица по его чертам лица, таким как расстояние между носом и глазами, носом и ушами.

в. Оптическое распознавание символов:- Идентификация символов на изображениях в печатном или рукописном формате.

2. Анализ движения

В отличие от распознавания, анализ движения принимает последовательность изображений (или видео) в качестве входных данных и производит оценку скорости в качестве выходных данных.

Одним из приложений является программное обеспечение для отслеживания, которое отслеживает скорость и относительное положение предполагаемого объекта в видео.

3. Реконструкция

Реконструкция — это процесс реконструкции цифровой версии объекта реального мира по изображениям или сканам объекта, предпочтительно 3D-версии или 2D-версии.

Его приложение включает в себя сканеры, панорамы, 3D-моделирование.

4. Восстановление

Восстановление — это процесс удаления шума, размытости изображения, расфокусировки камеры, создания потерянных частей изображения и т. д. из изображения/видео и получения более четкого изображения.

Один из ярких примеров реставрации описан в следующем видео.

Чего ожидать в нашей следующей главе?

В серии статей мы рассмотрим различные концепции и практические руководства по различным темам Computer Vision.

Следующим будет введение в глубокое обучение. Статья будет содержать кое-что как для программистов, так и для широкой аудитории, которой интересно узнать, что происходит за кулисами, и получить общее представление об искусственном интеллекте и компьютерном зрении.