FaceNet: унифицированное встраивание для распознавания лиц и кластеризации

FaceNet - это встраиваемая среда обучения для проверки лиц, распознавания / классификации и кластеризации. Структура оценивается на человеческих лицах, проверяя, принадлежат ли два лица одному и тому же человеку, и группируя лица, которые принадлежат одному человеку, как в Google Picasa. В статье основное внимание уделяется триплетным потерям. Оцениваются различные сети встраивания, такие как начальные и варианты AlexNet.

Главный вывод: Triplet loss изучает вложение для классификации и кластеризации. Предостережения, прямо упомянутые в документе, необходимы для больших обучающих пакетов, большой продолжительности обучения и, что наиболее важно, необходимы для выбора триплетов для продвинутого обучения. Чтобы ускорить сходимость, тройки обучающих пакетов должны содержать как строго положительные, так и отрицательные.

Обучающая тройка содержит три примера (A, P, N): якорь, положительный и отрицательный. Целью любой сети с тройным вложением потерь является изучение такого вложения, что (|| F (A) -F (P) || + margin) ‹|| F (A) -F (N) ||

Выбор обучающих триплетов влияет на сходимость сети. Например, если обучающие тройки уже удовлетворяют ограничению внедрения, сеть ничего не узнает. Это частый случай использования случайной выборки. Таким образом, важно выбрать триплеты, которые нарушают такое ограничение скорости обучения.

В большом наборе данных выбор жестких положительных и отрицательных результатов требует больших вычислительных затрат. Таким образом, используются большие партии и все пары с положительным якорем в «мини-партии», чтобы избежать дорогостоящего жесткого положительного отбора. Выбор самых сложных негативов на практике может привести к плохим локальным минимумам на ранних этапах обучения, в частности, это может привести к коллапсу модели (т.е. f (x) = 0). Чтобы этого избежать, вводится полужесткая концепция. Вместо выбора жестко-отрицательных, которые ближе, чем положительные образцы, выбираются полутвердые отрицания, которые дальше от положительных, но находятся в пределах запрещенной границы.

Эти два приема, большой пакет и полутвердый выбор, улучшают сходимость встраиваемой сети.

Хотя в статье основное внимание уделяется потере триплетов, оцениваются шесть сетей встраивания. NN1 - это вариант AlexNet, остальные NN2,…, NNS2 - варианты сети Inception. Сети NN S X - это небольшие начальные модели для работы на мобильных телефонах. Они дешевы в вычислительном отношении с точки зрения требований к памяти и обработке, но, конечно, отстают с точки зрения точности.

В таблице 4 показана производительность NN1 (вариант AlexNet) при разном качестве jpg и размере изображения. Он демонстрирует надежность подхода и элегантную деградацию при низком качестве изображения или небольших эскизах.

В таблице 5 приведены оценки для различных размеров заделки. 128 байт работают лучше всего и поэтому адаптированы. Во время обучения используется 128-мерный
вектор с плавающей запятой, но его можно квантовать до 128 байт без потери точности.

Таблицы 6 и 7 показывают впечатляющие качественные результаты.

Мои комментарии:

Мне нравится газета, и я с удовольствием ее прочитал.
В статье процесс полужесткого отрицательного отбора не проиллюстрирован полностью. Означает ли ослабление ограничений, что случайная выборка будет работать?
Используемый размер партии - 1800! если это количество троек, это велико и может быть невозможно на обычных графических процессорах. Я не уверен, как такой большой пакет работает с наборами данных среднего размера?

FaceNet: унифицированное встраивание для распознавания лиц и кластеризации

Вопросы по теме