1. CiCo: поиск доменного языка жестов с помощью межъязыкового контрастного обучения (arXiv)

Автор : : Итин Чэн, Фанъюнь Вэй, Цзяньминь Бао, Дун Чен, Вэньцян Чжан.

Аннотация: Эта работа посвящена поиску языка жестов — недавно предложенной задаче для понимания языка жестов. Поиск языка жестов состоит из двух подзадач: поиск преобразования текста в видео (T2V) и поиск видео в текст (V2T). В отличие от традиционного поиска видеотекста, видео на языке жестов не только содержат визуальные сигналы, но и сами по себе несут множество семантических значений из-за того, что языки жестов также являются естественными языками. Принимая во внимание этот характер, мы формулируем поиск языка жестов как задачу межъязыкового поиска, а также задачу поиска видеотекста. Конкретно, мы принимаем во внимание лингвистические свойства как языков жестов, так и естественных языков, и одновременно идентифицируем мелкозернистые межъязыковые (т. . Этот процесс называется межъязыковым контрастивным обучением. Еще одна проблема возникает из-за нехватки данных: наборы данных жестового языка на несколько порядков меньше по масштабу, чем масштабы распознавания речи. Мы облегчаем эту проблему, внедряя независимый от домена кодировщик знаков, предварительно обученный на крупномасштабных видеороликах знаков, в целевой домен с помощью псевдомаркировки. Наша структура, называемая поиском языка жестов с учетом предметной области с помощью межъязыкового контрастного обучения или сокращенно CiCo, превосходит новаторский метод с большим отрывом в различных наборах данных, например, улучшения +22,4 T2V и +28,0 V2T R@1 в наборе данных How2Sign, и улучшения +13,7 T2V и +17,1 V2T R@1 в наборе данных PHOENIX-2014T. Код и модели доступны по адресу: https://github.com/FangyunWei/SLRT.

2. MaskCon: замаскированное контрастное обучение для набора данных с грубой маркировкой

(архив)

Автор: Чэнь Фэн, Иоаннис Патрас.

Аннотация: Глубокое обучение достигло больших успехов в последние годы с помощью передовых структур нейронных сетей и крупномасштабных наборов данных, аннотированных человеком. Однако часто бывает дорого и сложно точно и эффективно аннотировать крупномасштабные наборы данных, особенно для некоторых специализированных областей, где требуются детализированные метки. В этом случае грубые метки получить намного проще, так как они не требуют специальных знаний. В этой работе мы предлагаем метод сопоставительного обучения, называемый маскированным контрастным обучением ~ (MaskCon), для решения недостаточно изученной проблемы, когда мы учимся на наборе данных с грубой маркировкой, чтобы решить проблему с более тонкой маркировкой. В частности, в рамках контрастивного обучения для каждого образца наш метод генерирует программные метки с помощью грубых меток по отношению к другим образцам и другого расширенного представления рассматриваемого образца. В отличие от контрастивного обучения с самоконтролем, где только аугментации выборки считаются жесткими положительными, и в контролируемом контрастном обучении, где только образцы с одинаковыми грубыми метками считаются жесткими положительными, мы предлагаем мягкие метки, основанные на расстояниях выборки, которые маскируются грубые этикетки. Это позволяет нам использовать как межвыборочные отношения, так и грубые метки. Мы показываем, что наш метод может получить в качестве частных случаев многие существующие современные работы и что он обеспечивает более жесткие ограничения на ошибку обобщения. Экспериментально наш метод обеспечивает значительное улучшение по сравнению с текущим состоянием дел в различных наборах данных, включая наборы данных CIFAR10, CIFAR100, ImageNet-1K, Standford Online Products и Stanford Cars196. Код и аннотации доступны по адресу https://github.com/MrChenFeng/MaskCon_CVPR2023.