Приблизительно 1966: Марвин Мински, известный в лаборатории искусственного интеллекта и Массачусетского технологического института, дает Джеральду Джею Сассману, студенту бакалавриата, летний проект по подключению компьютера к камере, чтобы компьютер «описывал то, что он видел». Таким образом, он начинает поиски решения проблемы «визуального ввода», которая тогда считалась более простой, чем проблема когнитивного интеллекта в машинах. Это продолжает сбивать с толку экспертов.
Для упрощения компьютерное зрение (CV) можно описать как:
- использование машинного языка, алгоритмов глубокого обучения
- анализировать, делать выводы, интерпретировать и понимать содержание изображений или видео
- для получения информации.
Компьютерное зрение призвано имитировать возможности человеческого зрения в машинах. Но человеческое зрение - очень сложное явление. Люди могут легко описать изображение или видео, которое они видели, даже однажды.
Они могут различать различные цвета, оттенки, глубину, объекты, людей, фон в изображениях и видео и могут резюмировать их контекст, эмоции, содержание и визуальные эффекты с мельчайшими подробностями.
Задача
Для того, чтобы машина могла достигать человеческих возможностей зрения, она должна быть способна воспринимать цвет, глубину и расстояние, распознавать узор, обнаруживать, идентифицировать и классифицировать объекты для обработки информации и принятия действий или решений. Для этого компьютерное зрение опирается на множество междисциплинарных наук. С точки зрения биологической науки, компьютерное зрение направлено на создание вычислительных моделей для зрительной системы человека.
С инженерной точки зрения компьютерное зрение направлено на создание автономных систем для выполнения некоторых задач, которые может выполнять зрительная система человека, а во многих случаях даже превосходить ее. Большинство задач зрения связаны с извлечением трехмерной и исторической контекстной информации из упорядоченных по времени двумерных данных, таких как изображение или видео.
Компьютерное зрение часто путают с обработкой изображений, но две разные вещи.
- Обработка изображения относится к созданию, воссозданию, улучшению / изменению качества изображения с помощью таких шагов, как уменьшение шума, калибровка яркости / контрастности и т. Д. Для создания другого изображения.
- Компьютерное зрение, с другой стороны, фокусируется на интерпретации изображения, обработке содержимого и визуальных элементов изображения или видео для сбора, вывода и интерпретации информации о них для принятия решений.
Основные концепции
Компьютерное зрение фокусируется на двух основных концепциях:
- Во-первых, разберитесь в трехмерной геометрии изображения или видео сцены, чтобы собрать информацию о трехмерной структуре окружающей среды, представленной в изображении или сцене.
- Второй захватывает семантическую информацию, например, можем ли мы распознать объекты, людей или действия, изображенные на изображениях, и понять структуру и отношения различных компонентов сцены, как это сделал бы человек?
По словам профессора Стивена Зейтца из Вашингтонского университета, цель компьютерного зрения - вычислить свойства трехмерного мира из цифровых изображений. Проблемы в этой области включают определение трехмерной формы окружающей среды, определение движения вещей и распознавание знакомых людей и объектов посредством анализа изображений и видео.
Компьютерное зрение фокусируется на восстановлении трехмерной структуры мира из изображений, чтобы использовать ее для полного понимания сцены.
Джитендра Малик из Калифорнийского университета в Беркли описывает три ключевых аспекта компьютерного зрения - реконструкцию, распознавание, реорганизацию. Компьютерное зрение охватывает обнаружение функций, сегментацию изображений, оценку движения, мозаику изображений, реконструкцию трехмерных форм и распознавание объектов.
Наш путь
Первоначальная работа над компьютерным зрением вращалась вокруг обнаружения краев с помощью нейронных сетей и позволяла различать простые формы, такие как круги и квадраты. К 1970 году оптическое распознавание символов (OCR) могло расшифровать рукописные заметки по сравнению с напечатанными заметками.
В последнее десятилетие произошел бум передачи данных с мобильными ячейками с камерами, генерирующими изображение с беспрецедентной скоростью. Отметьте несколько цифр ниже:
- Только за последние два года было создано 90 процентов данных в мире.
- Ошеломляющие 2,5 квинтиллиона байтов данных создаются теперь каждый день.
- Ожидалось, что в 2017 году будет сделано ошеломляющее количество 1,2 триллиона фотографий с совокупным ежегодным темпом роста в 9%.
Последнее десятилетие также стало свидетелем быстрого развития технологий в аппаратном и программном обеспечении (камеры, датчики, Интернет вещей), появления мобильных устройств со встроенной камерой, улучшения сетевых подключений и широкого распространения социальных сетей. Эти разработки привели к легкому доступу к растущим наборам изображений и видео.
Расширенные возможности обработки данных и новые алгоритмы, такие как сверточная нейронная сеть, помогли машинам идентифицировать конкретных людей на фотографиях и видео. В результате компьютерное зрение стремительно росло в таких областях, как распознавание лиц, изучение рентгеновских лучей для медицинских приложений и т. Д.
Обучение моделей
Для обучения модели в компьютер загружаются тысячи связанных изображений. Система учится самостоятельно различать различные особенности изображений, а затем интерпретировать тестовые данные или данные в реальном времени на основе этого обучения. Используя нейронные сети с глубоким обучением, компьютеры распознают множество различных частей изображения и идентифицируют края. Затем они моделируют подкомпоненты, используя фильтрацию и серию действий через глубокие сетевые уровни, эти части затем собираются вместе, чтобы сформировать все части, чтобы получить полное изображение.
Приложения
Сейчас мы видели несколько успешных коммерческих приложений компьютерного зрения внутри и вокруг нас. В книге Компьютерное зрение: алгоритмы и приложения освещены некоторые из них:
- Оптическое распознавание символов (OCR)
- Осмотр машины
- Розничная торговля (например, автоматические кассы)
- Построение 3D модели (фотограмметрия)
- Медицинская визуализация
- Автомобильная безопасность, беспилотные автомобили
- Соответствующий ход (например, объединение компьютерной графики с живыми актерами в фильмах)
- Захват движения (мокап)
- Наблюдение
- Распознавание отпечатков пальцев и биометрия
Начало работы
Согласно исследованию, ожидается рост рынка компьютерного зрения за счет:
- 10,9 млрд долларов США в 2019 г. до 17,4 млрд долларов США к 2024 г.
- при CAGR 7,8% в течение прогнозируемого периода.
Основными факторами, способствующими росту рынка, являются растущая потребность в контроле качества и автоматизации, растущий спрос на роботизированные системы с визуальным контролем, растущий спрос на специализированные системы компьютерного зрения.
Итак, если вы хотите стать частью этого увлекательного путешествия, вот несколько быстрых советов, которые помогут мне начать работу:
Строительные блоки технологии CV требуют хорошего понимания искусственных нейронных сетей машинного обучения и глубокого обучения. Помимо этого полезны основы математики / статистики / вероятностной модели. Несколько ресурсов MOCC доступны в Интернете. Назвать несколько:
- платформы, такие как Coursera, Udacity, предлагают курсы «Введение в компьютерное зрение».
- для самостоятельного изучения содержание курса и конспекты лекций доступны в различных университетах, таких как Университет Брауна, Университет Северной Каролины.
- Такие эксперты, как черновик книги Ричарда Селиски Компьютерное зрение: алгоритмы и приложения, также доступен в Интернете, чтобы дать вам подробное представление о том, что будет включать в себя эта поездка на американских горках.