Что такое компьютерное зрение и как оно работает?

Компьютерное зрение, ммм… Подумайте об этом, поскольку я пишу и изучаю искусственный интеллект, я никогда не писал статьи о компьютерном зрении. Простая статья, где я иду и объясняю, что это за дисциплина, как она работает и почему она такая крутая.

Вот почему сегодня я решил начать тему с самого начала и поговорить с вами об одной из тем, которыми я больше всего увлечен.

Кроме того, чтобы не повторять ключевое слово этой статьи, я буду сокращать его с помощью символов CV (так что не путайте его с биографией 😅😂).

Однако прежде чем я начну, я хочу дать вам представление о том, что представляет собой рынок CV. На самом деле, по оценкам, в 2030 году этот рынок (аппаратного и программного обеспечения) достигнет стоимости 41,11 миллиарда долларов США (источник).

Столько? Как это возможно?

Я объясню вам почему через мгновение, так что читайте дальше.

Что такое компьютерное зрение

Компьютерное зрение – это ветвь искусственного интеллекта, использующая технологии глубокого обучения для воспроизведения человеческого поведения, по крайней мере, того, что мы "видим" с точки зрения.

Не понял? Вот пример.

Вы знаете компанию Tesla Илона Маска? Хорошо. Тесла использует передовые системы CV для идентификации объектов, людей, дороги и всего остального (точно так же, как это делают люди). Это используется автомобилем, поэтому он может помочь человеку с вождением или заменить его.

Хм… хорошо, может быть, этого недостаточно, чтобы описать эту тему.

Позвольте мне привести вам еще один пример.

Знакомы ли вы с такими технологиями, как Дополненная реальность (AR), Виртуальная реальность (VR) и Смешанная реальность (XR)? Да? Ну а в основе упомянутых выше технологий лежит Computer Vision, или как бы алгоритмы и CV-системы.

Теперь вы понимаете, почему его рынок, по оценкам, достигнет 41,11 миллиарда долларов США к 2030 году?

Компьютерное зрение — это основа того, что есть сегодня и что мы будем видеть — все больше и больше — в будущем, например, беспилотные автомобили и виртуальные реальности, такие как Метавселенная (широко обсуждаемая тему в Facebook и не только).

Вы понимаете, что такое компьютерное зрение? Что ж, давайте продолжим и немного подробнее.

Как работает резюме?

На протяжении веков люди пытались заставить машины воспроизводить человеческое поведение. За прошедшие годы было несколько неудач, но сегодня, благодаря новым технологиям и новым вычислительным мощностям, люди намного ближе к достижению своей цели.

В конкретном случае CV цель состоит в том, чтобы заставить компьютер распознавать объекты различных типов.

Это очень круто, но что происходит на самом деле? Как компьютеру удается распознавать объекты на изображениях?.

Чтобы ответить на эти вопросы, я попытаюсь привести вам практический пример, начиная с основ.

Возьмем изображение собаки, мы с вами — как люди — просто видим собаку, а компьютер — нет. То, что компьютер видит еще до того, как увидит собаку, — это числа.

Ну да, цифры! Трехканальные числовые последовательности от 0 до 255. Эти числа отражают основные цвета RGB (красный, зеленый, синий).

Вам непонятно? Я облегчу вам задачу.

Рассмотрим образ Авраама Линкольна. Чтобы отобразить это изображение черно-белым, компьютер разделит всю фигуру на пиксели.
Каждому пикселю компьютер присвоит значение от 0 до 255 относительно яркости, но на этот раз только один канал (потому что он черно-белый).

Как только значение каждого пикселя будет получено, компьютер сможет сформировать и отобразить изображение.

Вот что, в двух словах, происходит с одним изображением.

Комплекс не так ли? Я понимаю, поэтому предпочитаю не вдаваться в подробности. Это смутило бы вас.

Но как создать настоящее программное обеспечение Computer Vision?

Немного назад я объяснил, как компьютер видит изображение, но как создать настоящую программу CV?

Ну а создание софта требует времени, хоть и меньше десяти лет назад, но все же на это уходят месяцы, если не годы. Но давайте рассмотрим основные шаги.

Первое, что нужно сделать, это собрать данные. Для проектов, которые начинаются с нуля и хотят иметь свой собственный алгоритм, вам нужны миллионы и миллионы качественных изображений, потому что без хороших данных алгоритм будет делать неверные прогнозы.
В противном случае, как это происходит сегодня в во многих бизнесах используется трансферное обучение, которое позволяет использовать несколько изображений благодаря использованию предварительно обученных алгоритмов (но это уже другая история).
После того, как изображения собраны, их необходимо пометить. Это означает, что если моя цель состоит в том, чтобы идентифицировать лица людей, почти на каждом изображении, которое я собираю, мне придется выбирать и маркировать лица людей.
После завершения работы над изображениями я создам алгоритм, который я буду тренировать на тех же захваченных и размеченных изображениях. Затем я проверю тот же алгоритм с изображениями, которые я не пометил или которые не были переданы алгоритму.
Если программное обеспечение работает после нескольких тестов, то пришло время для полевого применения.

Это процесс, в результате которого появляется алгоритм CV.

Я сделал это очень просто, но не все то золото, что блестит. За этим стоят часы и часы работы.

Читайте также: Как распознать язык жестов

Хорошо, все очень круто, но каковы области применения, где используется Computer Vision?

Области применения компьютерного зрения

Есть несколько областей применения, в которых мы можем увидеть CV на работе, некоторые я уже говорил вам ранее, другие всегда перед вашими глазами, и вы даже не знаете об этом.

Антонио ждет, что вы имеете в виду под «они всегда перед вашими глазами»?

Обнаружение и распознавание лиц

У вас есть iPhone X или выше? или недавний Android-смартфон?

Если ответ «Да», то вы также будете знать, что у него есть функция «фейсконтроль». Что ж, эта функция называется Computer Vision и на сленге называется «Распознавание лиц».

Здесь алгоритм учится обнаруживать и распознавать лица людей.

Здравоохранение

Область медицины является одной из многих областей применения. Уже сегодня мы начинаем использовать первые системы компьютерного зрения для выявления заболеваний человеческого организма. Практическим примером является выявление рака в легких.

Беспилотные автомобили

Я уже говорил вам об этом раньше, но все больше и больше автопроизводителей используют эти системы, чтобы помочь водителю в дороге, или даже заменить их. Эта задача будет непростой из-за законов, которых еще не существует, а также из-за этических проблем.

Виртуальная реальность, дополненная реальность и смешанная реальность.

Snapchat, Instagram, Facebook — лишь некоторые из компаний, использующих эти технологии. Доказательством тому являются 3D-фильтры, распространяемые Snapchat, а затем скопированные Facebook в Instagram.

Такие реальности будут играть ключевую роль в будущем именно потому, что такие компании, как Facebook, соревнуются за создание первой метавселенной, как в фильме Первому игроку приготовиться.

Спорт (и не только) Анализ

Компьютерное зрение также можно использовать для анализа видео, а затем в режиме реального времени получать информацию о том, как идет игра.

Или, что немного пугает, ваш работодатель может следить за вами и оценивать, сколько вы на самом деле работаете.

Выводы

Это просто четкие демонстрации этого вопроса, которые я объяснил вам сегодня. Может быть, сейчас мы этого не знаем, но, может быть, в будущем появится еще больше областей применения, где мы сейчас этого не представляем.

Наверняка технологический прогресс повлияет на многие области компьютерного зрения и другие области искусственного интеллекта, такие как процесс естественного языка (NLP). Важно то, что вместе с техническим прогрессом появляются законы, защищающие конфиденциальность пользователей и этические нормы.

С учетом сказанного, я благодарю вас за то, что вы прошли весь этот путь, и я надеюсь, что вы все поняли.

Вы взволнованы тем, что может сделать эта технология, или вы немного напуганы? Дай мне знать в комментариях!

Увидимся в следующий раз,

Антонио.