Компьютерное зрение: от проекта летнего стажера к новому определению будущего ИИ

Приблизительно 1966: Марвин Мински, известный в лаборатории искусственного интеллекта и Массачусетского технологического института, дает Джеральду Джею Сассману, студенту бакалавриата, летний проект по подключению компьютера к камере, чтобы компьютер «описывал то, что он видел». Таким образом, он начинает поиски решения проблемы «визуального ввода», которая тогда считалась более простой, чем проблема когнитивного интеллекта в машинах. Это продолжает сбивать с толку экспертов.

Для упрощения компьютерное зрение (CV) можно описать как:

использование машинного языка, алгоритмов глубокого обучения
анализировать, делать выводы, интерпретировать и понимать содержание изображений или видео
для получения информации.

Компьютерное зрение призвано имитировать возможности человеческого зрения в машинах. Но человеческое зрение - очень сложное явление. Люди могут легко описать изображение или видео, которое они видели, даже однажды.

Они могут различать различные цвета, оттенки, глубину, объекты, людей, фон в изображениях и видео и могут резюмировать их контекст, эмоции, содержание и визуальные эффекты с мельчайшими подробностями.

Задача

Для того, чтобы машина могла достигать человеческих возможностей зрения, она должна быть способна воспринимать цвет, глубину и расстояние, распознавать узор, обнаруживать, идентифицировать и классифицировать объекты для обработки информации и принятия действий или решений. Для этого компьютерное зрение опирается на множество междисциплинарных наук. С точки зрения биологической науки, компьютерное зрение направлено на создание вычислительных моделей для зрительной системы человека.

С инженерной точки зрения компьютерное зрение направлено на создание автономных систем для выполнения некоторых задач, которые может выполнять зрительная система человека, а во многих случаях даже превосходить ее. Большинство задач зрения связаны с извлечением трехмерной и исторической контекстной информации из упорядоченных по времени двумерных данных, таких как изображение или видео.

Компьютерное зрение часто путают с обработкой изображений, но две разные вещи.

Обработка изображения относится к созданию, воссозданию, улучшению / изменению качества изображения с помощью таких шагов, как уменьшение шума, калибровка яркости / контрастности и т. Д. Для создания другого изображения.
Компьютерное зрение, с другой стороны, фокусируется на интерпретации изображения, обработке содержимого и визуальных элементов изображения или видео для сбора, вывода и интерпретации информации о них для принятия решений.

Основные концепции

Компьютерное зрение фокусируется на двух основных концепциях:

Во-первых, разберитесь в трехмерной геометрии изображения или видео сцены, чтобы собрать информацию о трехмерной структуре окружающей среды, представленной в изображении или сцене.
Второй захватывает семантическую информацию, например, можем ли мы распознать объекты, людей или действия, изображенные на изображениях, и понять структуру и отношения различных компонентов сцены, как это сделал бы человек?

По словам профессора Стивена Зейтца из Вашингтонского университета, цель компьютерного зрения - вычислить свойства трехмерного мира из цифровых изображений. Проблемы в этой области включают определение трехмерной формы окружающей среды, определение движения вещей и распознавание знакомых людей и объектов посредством анализа изображений и видео.

Компьютерное зрение фокусируется на восстановлении трехмерной структуры мира из изображений, чтобы использовать ее для полного понимания сцены.

Джитендра Малик из Калифорнийского университета в Беркли описывает три ключевых аспекта компьютерного зрения - реконструкцию, распознавание, реорганизацию. Компьютерное зрение охватывает обнаружение функций, сегментацию изображений, оценку движения, мозаику изображений, реконструкцию трехмерных форм и распознавание объектов.

Наш путь

Первоначальная работа над компьютерным зрением вращалась вокруг обнаружения краев с помощью нейронных сетей и позволяла различать простые формы, такие как круги и квадраты. К 1970 году оптическое распознавание символов (OCR) могло расшифровать рукописные заметки по сравнению с напечатанными заметками.

В последнее десятилетие произошел бум передачи данных с мобильными ячейками с камерами, генерирующими изображение с беспрецедентной скоростью. Отметьте несколько цифр ниже:

Только за последние два года было создано 90 процентов данных в мире.
Ошеломляющие 2,5 квинтиллиона байтов данных создаются теперь каждый день.
Ожидалось, что в 2017 году будет сделано ошеломляющее количество 1,2 триллиона фотографий с совокупным ежегодным темпом роста в 9%.

Последнее десятилетие также стало свидетелем быстрого развития технологий в аппаратном и программном обеспечении (камеры, датчики, Интернет вещей), появления мобильных устройств со встроенной камерой, улучшения сетевых подключений и широкого распространения социальных сетей. Эти разработки привели к легкому доступу к растущим наборам изображений и видео.

Расширенные возможности обработки данных и новые алгоритмы, такие как сверточная нейронная сеть, помогли машинам идентифицировать конкретных людей на фотографиях и видео. В результате компьютерное зрение стремительно росло в таких областях, как распознавание лиц, изучение рентгеновских лучей для медицинских приложений и т. Д.

Обучение моделей

Для обучения модели в компьютер загружаются тысячи связанных изображений. Система учится самостоятельно различать различные особенности изображений, а затем интерпретировать тестовые данные или данные в реальном времени на основе этого обучения. Используя нейронные сети с глубоким обучением, компьютеры распознают множество различных частей изображения и идентифицируют края. Затем они моделируют подкомпоненты, используя фильтрацию и серию действий через глубокие сетевые уровни, эти части затем собираются вместе, чтобы сформировать все части, чтобы получить полное изображение.

Приложения

Сейчас мы видели несколько успешных коммерческих приложений компьютерного зрения внутри и вокруг нас. В книге Компьютерное зрение: алгоритмы и приложения освещены некоторые из них:

Оптическое распознавание символов (OCR)
Осмотр машины
Розничная торговля (например, автоматические кассы)
Построение 3D модели (фотограмметрия)
Медицинская визуализация
Автомобильная безопасность, беспилотные автомобили
Соответствующий ход (например, объединение компьютерной графики с живыми актерами в фильмах)
Захват движения (мокап)
Наблюдение
Распознавание отпечатков пальцев и биометрия

Начало работы

Согласно исследованию, ожидается рост рынка компьютерного зрения за счет:

10,9 млрд долларов США в 2019 г. до 17,4 млрд долларов США к 2024 г.
при CAGR 7,8% в течение прогнозируемого периода.

Основными факторами, способствующими росту рынка, являются растущая потребность в контроле качества и автоматизации, растущий спрос на роботизированные системы с визуальным контролем, растущий спрос на специализированные системы компьютерного зрения.

Итак, если вы хотите стать частью этого увлекательного путешествия, вот несколько быстрых советов, которые помогут мне начать работу:

Строительные блоки технологии CV требуют хорошего понимания искусственных нейронных сетей машинного обучения и глубокого обучения. Помимо этого полезны основы математики / статистики / вероятностной модели. Несколько ресурсов MOCC доступны в Интернете. Назвать несколько:

платформы, такие как Coursera, Udacity, предлагают курсы «Введение в компьютерное зрение».
для самостоятельного изучения содержание курса и конспекты лекций доступны в различных университетах, таких как Университет Брауна, Университет Северной Каролины.
Такие эксперты, как черновик книги Ричарда Селиски Компьютерное зрение: алгоритмы и приложения, также доступен в Интернете, чтобы дать вам подробное представление о том, что будет включать в себя эта поездка на американских горках.