1. Атрибут Adaptive Margin Softmax Loss с использованием привилегированной информации (arXiv)

Автор: Сейед Мехди Иранманеш, Али Дабуэй, Насер М. Насрабади.

Аннотация: Мы представляем новую структуру для использования привилегированной информации для распознавания, которая предоставляется только на этапе обучения. Здесь мы сосредоточимся на задаче распознавания, где изображения предоставляются в качестве основного вида, а мягкие биометрические признаки (атрибуты) предоставляются в качестве привилегированных данных (доступны только на этапе обучения). Мы демонстрируем, что можно изучить более различительное пространство признаков, заставив глубокую сеть регулировать адаптивные поля между классами, использующими атрибуты. Это жесткое ограничение также эффективно уменьшает дисбаланс классов, присущий локальному окружению данных, тем самым создавая более сбалансированные границы классов на локальном уровне и более эффективно используя пространство функций. Обширные эксперименты проводятся с пятью различными наборами данных, и результаты показывают превосходство нашего метода по сравнению с современными моделями как в задачах распознавания лиц, так и в повторной идентификации человека.

2. Об обучающем свойстве логистических потерь и потерь Softmax для глубоких нейронных сетей (arXiv)

Автор: Цзянькан Ву, Сян Ван, Синъюй Гао, Цзявэй Чен, Хунчэн Фу, Тяньюй Цю, Сяннань Хэ.

Аннотация: Цели обучения рекомендательных моделей остаются в значительной степени неизученными. Большинство методов обычно используют точечные или парные потери для обучения параметров модели, но редко обращают внимание на потери softmax из-за высоких вычислительных затрат. Семплированные потери softmax становятся эффективной заменой потерь softmax. Его частный случай, потеря InfoNCE, широко использовался в обучении с самоконтролем и продемонстрировал замечательную производительность при контрастном обучении. Тем не менее, в ограниченных исследованиях выборочные потери softmax используются в качестве цели обучения для обучения рекомендателя. Что еще хуже, никто из них не исследует его свойства и не отвечает: «Подходит ли выборка потерь softmax для рекомендации продукта?» и «Каковы концептуальные преимущества выборочных потерь softmax по сравнению с преобладающими потерями?», насколько нам известно. В этой работе мы стремимся лучше понять примерные потери softmax для рекомендации товара. В частности, сначала мы теоретически раскрываем три преимущества, не зависящих от модели: (1) смягчение предвзятости популярности, что полезно для рекомендаций с длинным хвостом; (2) добыча жестких отрицательных образцов, которая предлагает информативные градиенты для оптимизации параметров модели; и (3) максимизация метрики ранжирования, что способствует производительности топ-К. Кроме того, мы изучаем характеристики конкретной модели по различным рекомендациям. Экспериментальные результаты показывают, что выборочные потери softmax более удобны для рекомендаций на основе истории и графиков (например, SVD++ и LightGCN), но плохо работают для моделей на основе ID (например, MF). Мы приписываем это его недостатку в изучении величины представления, делая комбинацию с моделями, которые также неспособны регулировать величину представления, изучают плохие представления. Напротив, модели на основе истории и графа, которые естественным образом регулируют величину представления в соответствии со степенью узла, способны компенсировать недостаток выборочных потерь softmax.