1. Обобщенное параметрическое контрастное обучение (arXiv)

Автор:Цзецюань Цуй, Чжишэн Чжун, Чжуотао Тянь, Шу Лю, Бэй Ю, Цзяя Цзя

Аннотация: в этой статье мы предлагаем обобщенное параметрическое контрастное обучение (GPaCo/PaCo), которое хорошо работает как на несбалансированных, так и на сбалансированных данных. Основываясь на теоретическом анализе, мы наблюдаем, что контролируемая контрастивная потеря имеет тенденцию к смещению высокочастотных классов и, таким образом, увеличивает сложность несбалансированного обучения. Мы вводим набор параметрических обучаемых центров по классам для перебалансировки с точки зрения оптимизации. Кроме того, мы анализируем наши потери GPaCo/PaCo при сбалансированных настройках. Наш анализ показывает, что GPaCo/PaCo может адаптивно повышать интенсивность сближения образцов одного и того же класса по мере того, как большее количество образцов сближается с соответствующими центрами, и приносить пользу обучению на жестких примерах. Эксперименты с эталонными тестами с длинными хвостами демонстрируют новый уровень развития технологий распознавания с длинными хвостами. В полной сети ImageNet модели от CNN до преобразователей зрения, обученные потерям GPaCo, демонстрируют лучшую производительность обобщения и более высокую надежность по сравнению с моделями MAE. Более того, GPaCo можно применять к задаче семантической сегментации и очевидные улучшения наблюдаются на 4-х самых популярных бенчмарках. Наш код доступен по адресу https://github.com/dvlab-research/Parametric-Contrastive-Learning.

2. Распознавание действий на основе скелета, инвариантное к представлению, с помощью глобально-локального контрастного обучения (arXiv)

Автор:Куньлин Бянь, Вэй Фэн, Фанбо Мэн, Сун Ван

Аннотация:Распознавание действий человека на основе скелета в последнее время вызывает все больший интерес из-за его низкой чувствительности к изменениям внешнего вида и доступности большего количества данных о скелете. Тем не менее, даже 3D-скелеты, снятые на практике, по-прежнему чувствительны к точке зрения и направлению, дававшим окклюзию различных суставов человеческого тела и ошибки в локализации человеческих суставов. Такая вариативность представления скелетных данных может существенно повлиять на эффективность распознавания действий. Чтобы решить эту проблему, мы предлагаем в этой статье новый подход к обучению инвариантному представлению без какой-либо ручной маркировки действий для распознавания действий человека на основе скелета. В частности, мы используем скелетные данные с несколькими представлениями, одновременно взятые для одного и того же человека при обучении сети, максимизируя взаимную информацию между представлениями, извлеченными из разных представлений, а затем предлагаем глобально-локальные контрастные потери для моделирования многомасштабного взаимодействия. -отношения возникновения как в пространственной, так и во временной областях. Обширные экспериментальные результаты показывают, что предлагаемый метод устойчив к разнице в представлении входных данных скелета и значительно повышает производительность неконтролируемых методов человеческого действия на основе скелета, что приводит к новой современной точности на двух сложных многовидовых изображениях. бенчмарки ПКУМД и НТУ RGB+D

3.Контрастное обучение неконтролируемым визуальным представлениям на основе капсульной сети (arXiv)

Автор:Суровый Панвар, Иоаннис Патрас

Аннотация:капсульные сети продемонстрировали огромный прогресс за последнее десятилетие, превзойдя традиционные CNN в различных задачах благодаря своим эквивариантным свойствам. Благодаря использованию векторного ввода-вывода, который предоставляет информацию как о величине, так и о направлении объекта или его части, открывается огромная возможность использования капсульных сетей в неконтролируемой среде обучения для задач визуального представления, таких как классификация изображений с несколькими классами. В этой статье мы предлагаем модель контрастной капсулы (CoCa), которая представляет собой капсульную сеть в сиамском стиле, использующую контрастную потерю с нашей новой архитектурой, алгоритмом обучения и тестирования. Мы оцениваем модель на наборе данных CIFAR-10 для неконтролируемой классификации изображений и достигаем точности первого теста 70,50% и точности первого теста 98,10%. Благодаря нашей эффективной архитектуре наша модель имеет в 31 раз меньше параметров и в 71 раз меньше FLOP, чем текущая SOTA как в контролируемом, так и в неконтролируемом обучении.