ПРИМЕНЕНИЕ МОДУЛЯ CNN ГЛУБОКОГО ОБУЧЕНИЯ DLIB ДЛЯ ИДЕНТИФИКАЦИИ И КЛАСТЕРИЗАЦИИ ИЗОБРАЖЕНИЙ

Солнечный день на пляже, и вы гуляете со своими лучшими друзьями. Вы делаете массу фотографий и счастливы, что запечатлели несколько замечательных моментов. Прохладный! Вернувшись домой, ваши друзья хотят, чтобы вы сортировали фотографии и делились ими. Разве вы не хотели бы знать некоторые магические заклинания?

Вот еще этап. Чтобы сохранить «призрака горы», белого леопарда, геолог хотел бы проследить движение хищника, чтобы понять его поведение. Установка GPS-ошейника — трудоемкая задача. Здесь поможет камера обнаружения движения, но как вы просеиваете тонны фотографий?

Введите CNN. Не новости CNN. CNN или Convolutional Neural Network — революционная глубокая искусственная нейронная сеть, способная анализировать изображения. Теперь данные за годы можно визуально анализировать, сортировать и понимать без необходимости сплачивать команду. Недавнее применение этой функции — iOS и Mac OS. Пользователи iPhone и Mac могут воспользоваться функцией автоматической сортировки на основе лиц, обнаруженных в группе фотографий. Но мы по-прежнему не можем добавить их в папки и сохранить на внешний диск.

Тогда время решения?! С помощью модуля глубокого обучения CNN DLIB можно;

Используйте модель, предварительно обученную с использованием 3 миллионов изображений, для обнаружения лица на изображении.
Обнаружение отдельных лицевых ориентиров на изображении с одним или несколькими лицами
Сопоставьте изображение человеческого лица со 128-мерным векторным пространством, где изображения одного и того же человека находятся рядом друг с другом, а изображения разных людей далеко друг от друга.

Перед тем, как мы начнем, важно учитывать одно важное соображение: DLIB в целом предполагает, что если два вектора дескриптора лица имеют евклидово расстояние между ними меньше 0,6, то это один и тот же человек. По сути, эта модель, представленная парой изображений лиц, будет правильно определять, принадлежит ли пара одному и тому же человеку или нет, в 99,38% случаев. Это сравнимо с другими современными методами распознавания лиц, представленными на рынке на сегодняшний день.

После этого давайте поймем, как мы можем внедрить DLIB для решения бизнес-кейсов, упомянутых ранее.

Чтобы сделать его интуитивно понятным, мы добавили две функции;

Режим автопилота. Как пользователь, вы делаете доступными для приложения все изображения в папке. Приложение будет читать изображения одно за другим и запоминать каждое новое лицо. Затем он скопирует изображение в папку в зависимости от количества лиц на этом изображении. Таким образом, изображение с 5 лицами будет скопировано в 5 разных папок, учитывая по одному лицу в каждой папке. Каждое новое лицо получит свою папку.

Режим «наведи и снимай»: как пользователь, вы предоставляете 2 пути к папкам. Один, в котором у вас хранятся все изображения, и другой, в котором есть изображение или изображения в подпапке или папках человека или людей, чьи изображения вы хотите идентифицировать и просеять.

Чтобы объяснить, как работает это приложение, вот блок-схема;

Доказательство… вот короткий ролик, демонстрирующий, как это работает.

Это приложение также можно использовать для идентификации и сбора объектов. Это может быть очень полезно на веб-сайтах электронной коммерции, где вместо того, чтобы снова и снова добавлять описание функции для объекта, который либо уже продан, либо является частью каталога, после идентификации функции могут быть скопированы снова, и необходимо указать только MSRP и условия доставки. быть добавлен для нового продавца этого товара. Это также помогает в оптимизации результатов поиска товаров, продаваемых в Интернете. Чтобы пользователи могли получать релевантные результаты с помощью распознавания изображений и пометки изображений с неправильными тегами, мы можем улучшить взаимодействие с пользователем.

Одна проблема, с которой мы столкнулись и которую преодолели, была связана с размером самого изображения. Для получения результатов всего от 20 до 30 изображений первоначально требовалось от 2 до 3 часов. Уменьшение размера изображения увеличило производительность в 2–3 раза при уменьшении точности на 1% (что означает, что будет пропущено очень мало изображений). Поэтому, прежде чем отправлять его в обработку, важно подумать об изменении размера изображения до оптимального уровня, чтобы получить более быстрые и точные результаты.

Вот оно. Так что теперь, когда вы готовитесь к своей следующей поездке, знайте, что умное приложение прикроет вашу спину, как только вы вернетесь.

ПРИМЕНЕНИЕ МОДУЛЯ CNN ГЛУБОКОГО ОБУЧЕНИЯ DLIB ДЛЯ ИДЕНТИФИКАЦИИ И КЛАСТЕРИЗАЦИИ ИЗОБРАЖЕНИЙ

Вопросы по теме