Привет! В июне прошлого года я присутствовал (лично, да!) на CVPR 2022, проходившем в Новом Орлеане, с кучей крутых людей с работы. Я видел потрясающие работы, разговаривал с кучей замечательных людей и до сих пор думаю, как применить то, что я увидел, в задачах, с которыми мы сталкиваемся в Unico.

За последние несколько недель я прочитал кучу статей и попытаюсь обобщить ниже самое интересное, что я увидел. Большинство работ здесь связаны с биометрией лица, поскольку именно этим мы больше всего занимаемся здесь, в Unico. :-D

Распознавание лица

Распознавание лиц по-прежнему является горячей темой, даже несмотря на то, что становится все труднее превзойти SOTA в текущих тестах.

Здесь, в Unico, нас всегда интересуют работы, которые масштабируют распознавание лиц до миллионов личностей. Одна из основных проблем при обучении в масштабе миллионов заключается в том, что окончательный полносвязный слой масштабируется линейно с количеством идентификаторов, что приводит к огромному объему памяти и медленному времени обратного распространения на каждой итерации. Один из методов, направленных на смягчение этого, Partial FC [2], был довольно популярен еще до публикации в CVPR в этом году — он включен в популярный репозиторий insightface. Этот метод пытается аппроксимировать последний слой стандартных обучающих методов распознавания лиц (например, CosFace, ArcFace и т. д.). С той же целью лучшего масштабирования распознавания лиц Wang et al. (от Alibaba) метод [3] улучшается еще больше (см. рисунок ниже), используя замену слоя FC с именем Dynamic Class Pool и хорошо спроектированный загрузчик данных.

Мое внимание привлекли еще две статьи о распознавании лиц: He at al. [4], который пытается отделить глубину и альбедо от изображений лица, чтобы улучшить распознавание с использованием 3D-информации. Это достигается за счет введения потери трехмерной реконструкции лица с двумя вспомогательными сетями. Я очень рад видеть кучу методов, пытающихся включить 3D-информацию для лиц (увижу то же самое в документах NeRF). Меня также очень впечатлил метод Фана и Нгуена [5], который направлен на проверку лиц с серьезными окклюзиями (солнцезащитные очки, маски и т. д.) без необходимости повторного обучения модели.

Уменьшение предубеждений

К счастью, в наши дни большой интерес вызывают методы уменьшения предвзятости, и в этом году на CVPR мы увидели множество крутых работ по этому вопросу. Одна особая вещь, которую я нашел очень положительной, заключается в том, что многие работы не требуют огромных аннотированных данных, чтобы значительно смягчить предвзятость.

Лю и Ю [9] начинают с определения нового типа потери поля для обучения распознаванию лиц, который использует комбинацию нескольких факторов смещения, таких как этническая принадлежность, поза, размытие и окклюзия. В их методе также используются некоторые длиннохвостые подходы к обучению (учимся учиться).

«Learning Fair Classifiers with Partly Annotated Group Labels» от Jung, Chun и Moon [10] показывает, что, когда только небольшая часть набора данных имеет аннотированные чувствительные групповые метки, текущие методы классификации справедливости работают хуже, чем обучение с нуля. После этого авторы предлагают метод, который может повысить справедливость за счет аннотирования лишь небольшой части групповых данных — в их экспериментах было достаточно только 10%.

Работа Wang et al. [11] делает еще один шаг вперед, предлагая метод, способный смягчить предвзятость в уже развернутых моделях без переобучения. Он использует те хорошо известные состязательные возмущения, которые стали популярными в последнее десятилетие или около того, чтобы показать, что было легко изменить класс изображения в классификаторе, просто добавив шум, который кажется случайным (и который визуально не влияет на изображение). образ для человека). Здесь они пытаются найти возмущения, которые могут исправить ошибки, которые, по-видимому, возникают из-за предвзятости модели. Очень интересно!

Оживление лица

Дхар и др. [6] представил умный способ, основанный на дистилляции знаний, для объединения наборов данных распознавания и живости в единую многозадачную сеть для проверки подлинности глаз и обнаружения атак на презентации. Выглядит здорово, особенно когда у вас нет аннотированных личностей людей в наборе данных о живучести. Ван и др. [7] получает случайные пятна на лице и применяет потерю, аналогичную дуге, чтобы создать кластеры, отдающие характеристики изображений, например. они разделяют фальшивое изображение по среде презентации и качеству камеры.

Жаль, что я не видел больше работ о живости в этом CVPR. Между тем, что мы видим в академических кругах и в отрасли, по-прежнему существует серьезный разрыв, особенно в отношении масштаба и качества доступных наборов данных и контрольных показателей. Но эй, дайте мне знать в комментариях, если я пропустил некоторые важные работы в этом году. Сказав это, одна работа, которая, кажется, начинает решать эту проблему, принадлежит Wang et al. [8], который пытается объединить все общедоступные наборы данных в единый, более сложный тест.

Подделка лица

Одним из видов мошенничества, который в настоящее время часто встречается в системе аутентификации, является подделка лица (например, дипфейк или подмена лица). Иногда эта проблема усугубляется, когда на программном обеспечении для захвата нет защиты, так что возможен обход поддельного изображения в системе.

Вкратце, вот две работы по обнаружению/созданию подделок лиц, которые я видел. Сиохара и Ямасаки [12] предлагают умный способ усложнить процесс обучения детектора дипфейков, используя одного и того же человека в качестве исходного и целевого изображения (которые они называют самосмешанными изображениями). Jia et al [13] предлагают способ создания состязательных атак, который эффективно работает не только в детекторах, основанных на пространстве, но и в детекторах, основанных на частоте. Говоря о страшных вещах, плакат семинара, который я видел в Гарварде, был связан с этой статьей Донга и др., Которая показалась мне очень впечатляющей: «Глубокие нейронные сети удивительно обратимы: основа для инверсии с нулевым импульсом».

Восстановление лица

Восстановление лица направлено на восстановление высококачественных изображений лица из изображений (очень) низкого качества. Важно отметить, что при восстановлении лиц важно отметить, что, как правило, наборы данных строятся синтетически, что означает, что высококачественные изображения ухудшаются для создания низкокачественных изображений, которые впоследствии передаются в систему таким образом, чтобы можно было сравнить наземную правду ( исходное изображение) с реконструированным аналогом.

Чжу и др. от Tencent [14] использует 3D-информацию для управления восстановлением лица, объединяя форму и генеративные априорные данные в метод. Результаты из статьи показывают, что метод работает довольно хорошо по сравнению с SOTA с точки зрения реконструкции реалистичного лица, но из образцов бумажных изображений видно, что иногда личность человека теряется — это означает, что реконструированное изображение, даже жесткое, является реалистичным. лицо, похоже, это не тот же человек, что и на исходном изображении.

Эта проблема потери идентичности рассматривается в очень интересной статье Zhao et al. под названием «Переосмысление глубокой реставрации лица» [15]. Они делят проблему восстановления лица на генерацию лица и реконструкцию лица. Путем индивидуального решения каждой проблемы и предложения улучшений на обоих этапах метод может значительно улучшиться по сравнению с уровнем техники. Более того, они предлагают новую метрику для оценки того, насколько идентичность сохраняется при реконструкции. Это первая статья, в которой идентичность реконструкции оценивается таким образом. Должно быть интересно посмотреть, как будет развиваться эта область, и будет ли возможно использовать такие методы до конвейеров распознавания лиц.

NeRF — поля нейронного излучения

NeRF по-прежнему был горячей темой в этом CVPR, и, судя по потрясающей работе, которую мы увидим дальше, так и будет продолжаться. Примечание для читателя: я все еще изучаю основы NeRF (кстати, я использую для этого этот учебник, он довольно хорош).

Итак, в основном NeRF — это генеративная модель, которая обучается на изображениях объекта с разных точек зрения. После обучения модель способна генерировать новые точки зрения на сцену. Более того, сама модель является представлением трехмерной формы и внешнего вида сцены. Это 3D-представление довольно простое. Из Учебника Мейсона:

Он описывает направление лучей света, проходящих через каждую координату x=(x, y, z) в пространстве и во всех направлениях д. […]NeRF, вдохновленный этим представлением, пытается аппроксимировать функцию, которая отображается из этого пространства в четырехмерное пространство, состоящее из цвета c=(R,G, B) и плотностью σ

Возвращаясь к CVPR, лучшая студенческая работа этого года была отмечена работой Verbin et al. [16]. Их метод нашел способ улучшить зеркальные отражения в NeRF, и демоверсии просто потрясающие, посмотрите презентацию. Несмотря на то, что NeRF не используются для биометрии лица, они часто используются для параметризации лиц/голов. Работа Athar et al. [17] довольно удобен, поскольку сочетает в себе очень распространенную трехмерную параметризацию лица (3DMM) с NeRF. Полученная система способна использовать явные параметры для изменения положения головы и выражения. Также можно использовать видео в качестве входных данных, проверяя их видео.

Наконец, статья Rebain et al. [18] от Google, кажется, меняет правила игры для NeRF, он называется «LOLNeRF: Learn from One Look». Как следует из названия, им удается изучить представление формы и внешнего вида из большой коллекции изображений с одним видом. Загляните на страницу проекта для некоторых демонстраций.

Вот и все

Я надеюсь, что вы могли бы обновить свой список к прочтению некоторыми из этих статей. Дайте мне знать в комментариях, если я пропустил что-то интересное. Пока.

Рекомендации

[1] — Ким, М., Джайн, А.К., и Лю, X. (2022). AdaFace: адаптивный запас качества для распознавания лиц. В материалах конференции IEEE/CVF по компьютерному зрению и распознаванию образов (стр. 18750–18759).

[2] — Ан, С., Дэн, Дж., Го, Дж., Фэн, З., Чжу, С., Ян, Дж., и Лю, Т. (2022). Убить двух зайцев одним выстрелом: эффективное и надежное обучение CNN распознавания лиц с помощью частичного FC. В материалах конференции IEEE/CVF по компьютерному зрению и распознаванию образов (стр. 4042–4051).

[3] — Ван, К., Ван, С., Чжан, П., Чжоу, З., Чжу, З., Ван, X., … и Ю, Ю. (2022). Эффективный подход к обучению распознаванию лиц в очень больших масштабах. В материалах конференции IEEE/CVF по компьютерному зрению и распознаванию образов (стр. 4083–4092).

[4] - Хе, М., Чжан, Дж., Шан, С., и Чен, X. (2022). Улучшение распознавания лиц с помощью самоконтролируемой 3D-реконструкции. В материалах конференции IEEE/CVF по компьютерному зрению и распознаванию образов (стр. 4062–4071).

[5] — Фан Х. и Нгуен А. (2022). DeepFace-EMD: повторное ранжирование с использованием расстояния перемещения землеройной машины по участкам улучшает идентификацию лиц за пределами распространения. В материалах конференции IEEE/CVF по компьютерному зрению и распознаванию образов (стр. 20259–20269).

[6] — Дхар П., Кумар А., Каплан К., Гупта К., Ранджан Р. и Челлаппа Р. (2022). EyePAD++: подход на основе дистилляции для совместной аутентификации глаз и обнаружения атак с использованием периокулярных изображений. В материалах конференции IEEE/CVF по компьютерному зрению и распознаванию образов (стр. 20218–20227).

[7] - Ван, С.Ю., Лу, Ю.Д., Ян, С.Т., и Лай, С.Х. (2022). PatchNet: простая структура защиты от спуфинга лиц с помощью точного распознавания исправлений. В материалах конференции IEEE/CVF по компьютерному зрению и распознаванию образов (стр. 20281–20290).

[8] — Ван, З., Ван, З., Ю, З., Дэн, В., Ли, Дж., Гао, Т., и Ван, З. (2022). Обобщение домена с помощью сборки стилей в случайном порядке для защиты от спуфинга лиц. В материалах конференции IEEE/CVF по компьютерному зрению и распознаванию образов (стр. 4123–4133).

[9] - Лю, К., Ю, X., Цай, Ю. Х., Фараки, М., Мослеми, Р., Чандракер, М., и Фу, Ю. (2022). Учимся учиться с учетом различных искажений данных в глубоком распознавании лиц. В материалах конференции IEEE/CVF по компьютерному зрению и распознаванию образов (стр. 4072–4082).

[10] — Юнг С., Чун С. и Мун Т. (2022). Изучаем классификаторы Fair с частично аннотированными групповыми метками. В материалах конференции IEEE/CVF по компьютерному зрению и распознаванию образов (стр. 10348–10357).

[11] — Ван, З., Донг, X., Сюэ, Х., Чжан, З., Чиу, В., Вэй, Т., и Рен, К. (2022). Осознающее справедливость состязательное возмущение в сторону смягчения предвзятости для развернутых глубинных моделей. В материалах конференции IEEE/CVF по компьютерному зрению и распознаванию образов (стр. 10379–10388).

[12] — Сиохара К. и Ямасаки Т. (2022). Обнаружение дипфейков с помощью самосмешанных изображений. В материалах конференции IEEE/CVF по компьютерному зрению и распознаванию образов (стр. 18720–18729).

[13] — Цзя С., Ма С., Яо Т., Инь Б., Дин С. и Ян С. (2022). Изучение частотных состязательных атак для обнаружения подделки лиц. В материалах конференции IEEE/CVF по компьютерному зрению и распознаванию образов (стр. 4103–4112).

[14] — Чжу, Ф., Чжу, Дж., Чу, В., Чжан, X., Цзи, X., Ван, К., и Тай, Ю. (2022). Восстановление слепого лица с помощью интеграции формы лица и генеративных приор. В материалах конференции IEEE/CVF по компьютерному зрению и распознаванию образов (стр. 7662–7671).

[15] — Чжао, Ян, Ю-Чуань Су, Чун-Те Чу, Яндун Ли, Мариус Ренн, Юкунь Чжу, Чанью Чен и Сюхуэй Цзя. «Переосмысление глубокой реставрации лица. В материалах конференции IEEE/CVF по компьютерному зрению и распознаванию образов, стр. 7652–7661. 2022. Поля нейронного излучения (NeRF)

[16] — Вербин Д., Хедман П., Милденхолл Б., Зиклер Т., Бэррон Дж. Т. и Шринивасан П. П. (2021). Ref-nerf: Структурированный внешний вид для нейронных полей сияния, зависящий от вида. Препринт arXiv arXiv: 2112.03907.

[17] — Атар, С., Сюй, З., Сункавалли, К., Шехтман, Э., и Шу, З. (2022). RigNeRF: полностью управляемые нейронные 3D-портреты. В материалах конференции IEEE/CVF по компьютерному зрению и распознаванию образов (стр. 20364–20373).

[18] — Ребейн, Д., Мэтьюз, М., Йи, К.М., Лагун, Д., и Тальясаччи, А. (2022). ЛОЛНЕРФ: Учись с одного взгляда. В материалах конференции IEEE/CVF по компьютерному зрению и распознаванию образов (стр. 1558–1567).