Новые разработки в ответах на визуальные вопросы 2023, часть 2 (машинное обучение)

Основанные на знаниях контрфактические запросы для визуальных ответов на вопросы (arXiv)

Автор: Теодотий Стойку, Мария Лимпераиу, Гиоргос Стаму.

Аннотация: Визуальный ответ на вопрос (VQA) был популярной задачей, которая сочетает в себе видение и язык, с многочисленными соответствующими реализациями в литературе. Несмотря на то, что есть некоторые попытки подойти к проблемам объяснимости и надежности в моделях VQA, очень немногие из них используют контрфактуалы как средство исследования таких проблем независимым от модели способом. В этой работе мы предлагаем систематический метод для объяснения поведения и исследования устойчивости моделей VQA с помощью контрфактических возмущений. По этой причине мы используем структурированные базы знаний для выполнения детерминированных, оптимальных и контролируемых замен на уровне слов, нацеленных на лингвистическую модальность, а затем мы оцениваем реакцию модели на такие контрфактические входные данные. Наконец, мы качественно извлекаем локальные и глобальные объяснения, основанные на контрфактических ответах, которые в конечном итоге оказываются полезными для интерпретации поведения модели VQA. Выполняя различные типы возмущений, нацеленные на разные части речи входного вопроса, мы получаем представление о рассуждениях модели путем сравнения ее ответов в различных состязательных обстоятельствах. В целом мы выявляем возможные предубеждения в процессе принятия решений модели, а также ожидаемые и неожиданные закономерности, которые количественно и качественно влияют на ее производительность, как показано в нашем анализе.

2.MixPHM: эффективная параметрическая настройка с учетом избыточности для визуальных ответов на вопросы с низким уровнем ресурсов (arXiv)

Автор: Цзинцзин Цзян, Наньнин Чжэн.

Аннотация: В последнее время точная настройка предварительно обученных моделей языка зрения (VLM) стала одной из преобладающих парадигм для достижения современной производительности в VQA. Однако по мере масштабирования VLM становится дорого с точки зрения вычислений, неэффективным хранением и склонностью к переобучению для настройки полных параметров модели для конкретной задачи в условиях ограниченных ресурсов. Хотя современные методы настройки с эффективным использованием параметров значительно сокращают количество настраиваемых параметров, все еще существует значительный разрыв в производительности при полной точной настройке. В этой статье мы предлагаем \textbf{MixPHM}, эффективный метод настройки с учетом избыточности, который превосходит полную точную настройку в VQA с низким уровнем ресурсов. В частности, MixPHM — это легкий модуль, реализованный несколькими экспертами PHM в виде смеси экспертов. Чтобы уменьшить избыточность параметров, мы перепараметризируем экспертные веса в подпространстве низкого ранга и разделяем часть весов внутри и между MixPHM. Более того, основываясь на нашем количественном анализе избыточности представлений, мы предлагаем \textbf{регуляризацию избыточности}, которая помогает MixPHM уменьшить избыточность, не относящуюся к задаче, при одновременном продвижении релевантной задаче корреляции. Эксперименты, проведенные на VQA v2, GQA и OK-VQA с различными настройками с низким уровнем ресурсов, показывают, что наш MixPHM превосходит современные методы с эффективным использованием параметров и является единственным, который последовательно превосходит полную точную настройку.

Новые разработки в ответах на визуальные вопросы 2023, часть 2 (машинное обучение)

Вопросы по теме