Как далеко мы продвинулись с распознаванием лиц, часть 3

Prepended Domain Transformer: гетерогенное распознавание лиц без наворотов(arXiv)

Автор:Анжит Джордж, Амир Мохаммади, Себастьян Марсель

Аннотация. Гетерогенное распознавание лиц (HFR) относится к сопоставлению изображений лиц, снятых в разных доменах, таких как тепловое изображение с видимым (VIS), эскизы с видимым изображением, ближнее инфракрасное с видимым и т. д. Это особенно полезно при сопоставлении изображений видимого спектра с изображениями, полученными другими модальностями. Хотя HFR очень полезен, он сложен из-за разрыва доменов между исходным и целевым доменами. Часто отсутствуют крупномасштабные парные гетерогенные наборы данных изображений лиц, что не позволяет обучать модели специально для гетерогенной задачи. В этой работе мы предлагаем удивительно простой, но очень эффективный метод сопоставления изображений лиц при различных способах восприятия. Основная идея предлагаемого подхода состоит в том, чтобы добавить новый блок нейронной сети под названием Prepended Domain Transformer (PDT) перед предварительно обученной моделью распознавания лиц (FR) для устранения пробела в домене. Повторного обучения этого нового блока с несколькими парными образцами в контрастной настройке обучения было достаточно, чтобы достичь самых современных результатов во многих тестах HFR. Блоки PDT могут быть переобучены для нескольких комбинаций источник-цель с использованием предложенной общей структуры. Предлагаемый подход не зависит от архитектуры, то есть их можно добавлять к любым предварительно обученным моделям FR. Кроме того, подход является модульным, и новый блок можно обучить с минимальным набором парных образцов, что значительно упрощает практическое развертывание. Исходный код и протоколы будут общедоступны.

2.Обучение ансамблем с использованием преобразователей и сверточных сетей для распознавания лиц в маске(arXiv)

Автор: Мохаммед Р. Аль-Синан, Асил Ф. Ханиф, Хамза Лукман

Аннотация. Ношение маски для лица — это одна из корректировок, которым мы должны были следовать, чтобы уменьшить распространение коронавируса. Постоянное прикрытие наших лиц масками привело к необходимости понять и исследовать, как это поведение влияет на способность распознавания лиц системами распознавания лиц. Существующие системы распознавания лиц имеют чрезвычайно высокую точность при работе с обычными случаями распознавания лиц без ограничений, но плохо обобщают лица с закрытыми масками. В этой работе мы предлагаем систему распознавания лиц в масках. Предлагаемая система включает две модели сверточной нейронной сети (CNN) и две модели преобразователя. Модели CNN были точно настроены на предварительно обученной модели FaceNet. Мы объединяем прогнозы четырех моделей, используя метод голосования по большинству, чтобы идентифицировать человека с маской. Предлагаемая система была оценена на синтетически замаскированном наборе данных LFW, созданном в этой работе. Наилучшая точность достигается при использовании ансамблевых моделей с точностью 92%. Эта скорость распознавания превзошла точность других моделей и показывает правильность и надежность предложенной модели для распознавания лиц в масках. Код и данные доступны по адресу https://github.com/Hamzah-Luqman/MFR.

3.InterFace: регулируемая угловая маржа межклассовых потерь для глубокого распознавания лиц(arXiv)

Автор: Мэн Сан, Цзясюань Чен, Мэнчжэнь Ли, Пань Тан, Аньнин Пан, Шань Чжао, Ян Ян.

Аннотация. В области распознавания лиц всегда актуальна тема исследований по улучшению решения о потерях, чтобы черты лица, извлекаемые сетью, имели большую дискриминационную способность. Исследования последних лет улучшили дискриминационную способность модели лица путем пошаговой нормализации softmax к косинусному пространству, а затем добавления фиксированного предела штрафа для уменьшения внутриклассового расстояния для увеличения межклассового расстояния. Несмотря на то, что ранее была проделана большая работа по оптимизации граничного штрафа для улучшения различительной способности модели, добавление фиксированного маржинального штрафа к признаку глубины и соответствующего веса не согласуется с моделью данных в реальном сценарии. Чтобы решить эту проблему, в этой статье мы предлагаем новую функцию потерь, InterFace, снимающую ограничение добавления штрафа за маржу только между функцией глубины и соответствующим весом, чтобы усилить разделимость классов путем добавления соответствующих штрафов за маржу между функциями глубины. и все веса. Чтобы проиллюстрировать преимущества InterFace по сравнению с фиксированным пределом штрафа, мы объяснили геометрически и сравнили набор основных тестов. С более широкой точки зрения, наш InterFace улучшил современную производительность распознавания лиц в пяти из тринадцати основных тестов. Все коды обучения, предварительно обученные модели и журналы обучения публикуются в открытом доступе \footnote{https://github.com/iamsangmeng/InterFace}

Как далеко мы продвинулись с распознаванием лиц, часть 3

Вопросы по теме