Пример языковых моделей видения



  1. Семантическая сегментация открытого словаря с использованием моделей Frozen Vision-Language(arXiv)

Автор:Чаофань Ма, Юхуань Ян, Яньфэн Ван, Я Чжан, Вэйди Се

Вывод:при обучении в достаточном масштабе самоконтролируемое обучение продемонстрировало заметную способность решать широкий спектр визуальных или языковых задач. В этой статье мы исследуем простые, но эффективные подходы к адаптации предварительно обученных базовых моделей к интересующей последующей задаче, а именно к семантической сегментации открытого словаря. С этой целью мы вносим следующие вклады: (i) мы представляем Fusioner с легким модулем слияния на основе преобразователя, который объединяет замороженное визуальное представление с языковой концепцией через несколько данных сегментации изображения. Как следствие, модель получает возможность нулевого перехода к новым категориям сегментов; (ii) без потери общности мы экспериментируем с широким спектром моделей с самоконтролем, которые были предварительно обучены с использованием различных схем, например. только визуальные модели (MoCo v3, DINO), только языковые модели (BERT), визуально-языковая модель (CLIP) и показать, что предлагаемый подход слияния эффективен для любой пары визуальных и языковых моделей, даже для тех, обучен на корпусе унимодальных данных; (iii) мы проводим тщательные исследования абляции для анализа критических компонентов предлагаемого нами Fusioner, а также оцениваем стандартные контрольные показатели, например. PASCAL-5i и COCO-20i, он значительно превосходит существующие современные модели, несмотря на то, что обучается только на фиксированных визуальных и языковых функциях; (iv) чтобы измерить надежность модели при изучении визуально-языкового соответствия, мы дополнительно оцениваем синтетический набор данных, названный Mosaic-4, где изображения создаются путем мозаики образцов из FSS-1000. Fusioner демонстрирует превосходную производительность по сравнению с предыдущими моделями

2. Подсказка через прототип: обучение подсказкам на основе прототипа на предварительно обученных моделях визуального языка(arXiv)

Автор:Юэ Чжан, Хунлян Фэй, Динчэн Ли, Тан Ю, Пин Ли

Аннотация. Быстрое обучение — это новая парадигма обучения, которая переформулирует последующие задачи как аналогичные предварительные задачи на предварительно обученных моделях с использованием текстовых подсказок. Недавние работы показали, что быстрое обучение особенно полезно для обучения за несколько попыток, когда данные для обучения ограничены. В зависимости от детализации подсказок эти методы можно условно разделить на подсказки на уровне задачи и подсказки на уровне экземпляра. Методы подсказок на уровне задач изучают одну универсальную подсказку для всех входных выборок, которая эффективна, но неэффективна для выявления тонких различий между разными классами. Методы подсказок на уровне экземпляра изучают конкретную подсказку для каждого ввода, хотя и эффективны, но неэффективны. В этой работе мы разрабатываем новый метод быстрого обучения на основе прототипа, чтобы преодолеть вышеуказанные ограничения. В частности, мы фокусируемся на задачах распознавания изображений с несколькими кадрами на предварительно обученных моделях языка зрения (PVLM) и разрабатываем метод подсказок через прототип (PTP), где мы определяем прототипы изображений K и прототипы подсказок K. В PTP прототип изображения представляет собой центр тяжести определенного кластера изображений в скрытом пространстве, а прототип подсказки определяется как мягкая подсказка в непрерывном пространстве. Сходство между изображением запроса и прототипом изображения определяет, насколько этот прогноз зависит от соответствующего прототипа приглашения. Следовательно, в PTP аналогичные изображения будут использовать аналогичные способы подсказок. Путем обширных экспериментов на семи реальных тестах мы показываем, что PTP — это эффективный метод использования скрытых знаний и адаптации к различным PVLM. Кроме того, посредством подробного анализа мы обсуждаем плюсы и минусы быстрого обучения и точной настройки с эффективными параметрами в контексте обучения за несколько шагов.

3. Группировка восприятия в моделях языка видения(arXiv)

Автор: Канчана Ранасингхе, Брэндон МакКинзи, Сачин Рави, Йинфей Ян, Александр Тошев, Джонатон Шленс.

Аннотация. Недавние достижения в распознавании изображений с нулевым выстрелом предполагают, что модели языка зрения изучают общие визуальные представления с высокой степенью семантической информации, которую можно произвольно исследовать с помощью фраз на естественном языке. Однако понимание изображения заключается не только в понимании того, какой контент находится внутри изображения, но, что важно, и в том, где этот контент находится. В этой работе мы исследуем, насколько хорошо модели языка зрения способны понимать, где находятся объекты в изображении, и группировать вместе визуально связанные части изображения. Мы демонстрируем, как современные модели обучения зрению и языковому представлению, основанные на контрастных потерях и больших данных в Интернете, собирают ограниченную информацию о локализации объекта. Мы предлагаем минимальный набор модификаций, которые приводят к моделям, уникальным образом изучающим как семантическую, так и пространственную информацию. Мы измеряем эту производительность с точки зрения распознавания изображений с нуля, неконтролируемой восходящей и нисходящей семантической сегментации, а также анализа надежности. Мы обнаружили, что результирующая модель достигает самых современных результатов с точки зрения неконтролируемой сегментации, и демонстрируем, что изученные представления обладают уникальной устойчивостью к ложным корреляциям в наборах данных, предназначенных для исследования причинно-следственного поведения моделей зрения.