Автор: Рунак Раман

Введение:

Зрение — это самое важное чувство в человеческом теле, позволяющее нам видеть, оценивать и анализировать окружающую нас среду. Большая часть информации в мире поступает через зрение. Как люди, мы способны различать и распознавать различные узоры, в том числе отдельные черты лица. С наступлением компьютерной эры ученые и технические компании стремились реализовать эту визуальную способность в компьютерных машинах, что привело к рождению области компьютерного зрения. Так справедливо сказал известный английский писатель:

«Там, где слова сдержанны, глаза часто говорят много»

Постановка задачи:

«Слышать — не то же самое, что слушать, фотографировать — не то же самое, что видеть».

Простой акт захвата изображений и их анализа картинка за картинкой не охватывает фундаментальную концепцию компьютерного зрения. Компьютерное зрение направлено на разработку алгоритмов и методов, позволяющих компьютерам понимать и интерпретировать визуальные данные аналогично человеческому зрению.

Ранние разработки:

Алгоритм Виолы-Джонса:

Алгоритм Виолы-Джонса, представленный в 2001 году, произвел революцию в распознавании лиц, объединив функции, подобные Хаару, и алгоритм обучения AdaBoost. Это обеспечило значительное улучшение скорости и точности задач обнаружения лиц. Всегда существовал компромисс между точностью и скоростью распознавания лиц. Если мы подаем больше функций для анализа с точки зрения распознавания объектов, это влияет на скорость, а если мы увеличиваем скорость обработки изображений, это влияет на разрешение.

Алгоритм обучения AdaBoost:

Этот контролируемый алгоритм в основном сочетает в себе прогностическую силу различных алгоритмов машинного обучения, таких как деревья решений, KNN, логистическая регрессия и т. д., в одном и том же наборе данных для получения выходных данных с высокой точностью. В случае алгоритма деревьев решений он сначала присваивает равные веса всем точкам данных, а затем измеряет неверные прогнозы, затем присваивает большие веса этим точкам данных, а веса точек данных правильных прогнозов уменьшаются, так что следующие когда мы запускаем модель, этим конкретным точкам данных придается большее значение. Следовательно, AdaBoost является классификатором, как и градиентный спуск, для повышения точности модели.

Алгоритмы свертки и глубокого обучения:

Сверточные нейронные сети (CNN) появились как новаторская технология для задач компьютерного зрения. CNN используют сверточные слои для извлечения признаков из входных изображений и обеспечения точной классификации объектов. Здесь для построения модели используются глубокие нейронные сети, позволяющие обнаруживать различные типы объектов. Каждый слой, добавленный в нейронную сеть, извлекает различные функции, а затем свертывает их с другими функциями, чтобы точно предсказать объекты или лица.

Конвейер разработки алгоритмов компьютерного зрения:

1. Сбор данных:

Сбор разнообразного набора данных помеченных изображений имеет решающее значение для обучения алгоритмов компьютерного зрения. Это включает в себя беспристрастную коллекцию изображений либо из уже существующих наборов данных, либо создание новых.

2. Предварительная обработка:

Применение методов предварительной обработки изображений, таких как изменение размера, нормализация и шумоподавление, для повышения качества входных изображений. Это также включает в себя увеличение изображений для увеличения размера выборки или набора обучающих данных.

3. Извлечение признаков:

Извлечение соответствующих функций из изображений с использованием таких методов, как обнаружение краев, цветовые гистограммы и анализ текстуры.

4. Обучение модели:

Использование алгоритмов машинного обучения, таких как Виола-Джонс или CNN, для обучения модели на размеченном наборе данных.

5. Оценка модели:

Оценка производительности обученной модели с использованием таких показателей, как точность, достоверность и полнота. Кроме того, построение графика производительности модели.

F.R.I.D.A.Y-Система обнаружения и анализа изображений распознавания лиц

Это был проект, который я разработал, следуя описанным выше шагам, которые я упомянул в этой статье, а также исследовав тему. Краткое изложение того же В проекте ПЯТНИЦА я создал приложение, ориентированное на распознавание лиц, обнаружение изображений и анализ. Основная цель состояла в том, чтобы разработать надежную систему, способную обнаруживать и анализировать лица в реальном времени с использованием методов компьютерного зрения. Проект включал создание модели обнаружения лиц и реализацию конвейера классификации объектов. Чтобы обучить модель распознавания лиц, я собрал изображения с помощью веб-камеры и использовал библиотеку дополнений, чтобы увеличить размер набора данных, рандомизировав изображения с помощью настроек яркости, значения гаммы и обрезки. Это привело к увеличению и разнообразию набора данных для обучения. Ограничивающие рамки использовались для аннотирования лиц на изображениях, предоставляя наземную информацию для модели. Модель обнаружения лиц состояла из модели классификации для определения наличия лица и модели регрессии для рисования ограничивающей рамки вокруг лица путем оценки координат. Для модели классификации использовалась потеря двоичной энтропии, а для регрессионной модели использовалась среднеквадратическая ошибка (MSE) или потеря локализации. Модель нейронной сети была построена с использованием Keras API, в частности с использованием модели VGG16, предварительно обученной на обширном наборе данных изображений. В модель VGG16 были добавлены дополнительные слои для классификации и регрессии. Обученная модель выдала пять значений на выходе, включая значение вероятности для классификации и четыре координаты для ограничивающей рамки. В целом, в рамках проекта F.R.I.D.A.Y была успешно разработана надежная система для распознавания лиц и анализа изображений в реальном времени, объединяющая различные методы компьютерного зрения, увеличение данных, точные аннотации и четко определенные функции потерь для достижения точного обнаружения и локализации лиц. Код для того же приведен ниже:



Последние разработки и исследования:

Выделите последние достижения в области компьютерного зрения, такие как: Современные алгоритмы обнаружения объектов, такие как YOLO (You Only Look Once) и SSD (Single Shot MultiBox Detector).

Улучшения в методах распознавания лиц, включая использование моделей глубокого обучения, таких как FaceNet и ArcFace.

Анализ и отслеживание видео в реальном времени с использованием методов оптического потока и обнаружения движения.

Предположения и проблемы, с которыми сталкиваются при распознавании лиц и классификации объектов:

Обсудите сделанные предположения и проблемы, возникающие при разработке и реализации алгоритмов компьютерного зрения для задач распознавания лиц и классификации объектов. Это может включать проблемы, связанные с условиями освещения, окклюзией, изменением позы и потребностью в больших наборах данных с метками.

В последние годы модель генеративного изображения ИИ столкнулась с проблемами при создании точного изображения рук. Это связано с тем, что, в отличие от лица, руки включают в себя пальцы и ладони, которые могут быть изображены в различных формах и сочетаниях, а данных для обучения модели по-прежнему недостаточно. Это выдвигает на первый план вопрос о том, как должно быть представлено достаточно данных, чтобы модель была точной.

Эта ситуация хорошо показана и задокументирована Vox в одном из видео:

Будущие перспективы и приложения:

Изучите потенциальные применения компьютерного зрения в различных областях, таких как системы наблюдения, автономные транспортные средства, дополненная реальность, медицинская визуализация и робототехника. Обсудите будущие перспективы, в том числе интеграцию компьютерного зрения с другими новыми технологиями, такими как искусственный интеллект и Интернет вещей. Его использование зависит от пользователя. Например, с одной стороны, мы наблюдаем расцвет GPT-4, который совершит революцию в доступе к информации и ее точности, а также недавний выпуск очков Vision Pro от Apple Inc. С другой стороны, мы можем посмотрите, как использование Computer Vision используется для регулирования и создания антиутопического общества в Китае практически без конфиденциальности с помощью системы социального кредита. Подробное видео вы можете посмотреть ниже:

Используемые источники и ссылки:

https://iopscience.iop.org/article/10.1088/1742-6596/1755/1/012006/pdf