Ссылка на мои блоги по глубокому обучению: https://rakshithv-deeplearning.blogspot.com/

Пересмотр сшивания моделей для сравнения нейронных представлений

В этой работе авторы сосредоточились на доказательстве следующего пункта, как они упомянули в статье:
мы используем сшивание моделей для получения количественных проверок интуитивных утверждений, таких как «хорошие сети изучают похожие представления» и «чем больше, тем лучше».

Основное предположение состоит в том, что хорошие модели изучают схожие внутренние представления, даже если они обучены с разными инициализациями, архитектурами и целями. Это было показано путем объединения различных моделей, обученных на одном и том же распределении данных, идентичных архитектурах и разных случайных начальных значениях с минимальными потерями при сшивании.

В этом процессе, допустим, у нас есть нейронная сеть A и нейронная сеть B с одинаковой архитектурой, теперь более ранние слои A могут быть сшиты с более поздними слоями B, и это можно назвать сшитой моделью. Слой сшивания, такой как 1x1 conv, изучается и используется для выравнивания между различными моделями (обработка сшивания не должна ограничиваться двумя моделями). Лучшие результаты были замечены, когда модель, обученная с использованием большего количества данных или лучших гиперпараметров с самоконтролем, была сшита вместе с моделью, обученной с учителем.

Ссылка на статью: https://arxiv.org/abs/2106.07682

AugMax: состязательная композиция случайных дополнений для надежного обучения

Цель аугментации — увеличить разнообразие обучающих данных, чтобы повысить их способность к обобщению. Авторы описали две основные категории аугментации:

  1. Увеличение разнообразия-› Это включает в себя такие простые вещи, как случайная обрезка, трансляция и т. д. Метод AugMix обеспечивает лучшее разнообразие за счет стохастического выбора различных методов увеличения.
  2. Hardness-› Генерация состязательного изображения для исходного изображения.

Представленная работа в основном представляет собой объединение обоих, как показано ниже:

Изображение проходит через 3 цепочки параллельно и они объединяются с обучаемым параметром «w». Затем исходное изображение и дополненное изображение объединяются с обучаемым параметром «m». Параметр «m» пытается сохранить сходство на уровне функций между исходным и дополненным изображением.

Обычная настройка обучения заключается в минимизации потерь L путем оптимизации параметра θ.

L = arg min θ [f(x),θ]

Здесь, если мы тренируемся с дополненным изображением x*

x* = g(x-origin,m&w), g->AugMax

Следовательно, L = arg min θ, arg max (m&w) [f(g(x-orig,m&w),θ]

Следовательно, это проблема минимум-максимум (m и w должны попытаться увеличить изображение таким образом, чтобы максимизировать потери модели), soft-max применяется к w, поскольку его распределение должно быть между 0 и 1.

Это аугментационная структура, обеспечивающая унификацию разнообразия и жесткости.

Ссылка на статью: https://arxiv.org/pdf/2110.13771.pdf

Узкие места для мультимодального объединения

Как мы все знаем, трансформеры стали популярным рецептом для задач, относящихся ко всем модальностям, таким как зрение, звук и текст. Предлагаемая работа говорит о другом способе объединения мультимодального ввода.

  1. Слияние через ванильное самовнимание

В этом методе для кадров видео генерируются токены и встраивания, аналогичные методам, упомянутым в Vision Transformer (ViT), назовем это Zf. Точно так же токены и вложения генерируются для аудиоспектрограмм, и назовем это Za. Теперь оба вложения конкатенируются [Zf].[Za] и подаются на преобразователь . Самостоятельное внимание осуществляется между вложениями кадра и аудио.

2. Слияние с параметрами модальности

В этом методе обе модальности имеют отдельные параметры как для звука, так и для кадра, но взаимодействие между модальностями достигается за счет слоев перекрестного внимания, а не слоев собственного внимания.

3. Слияние через узкие места внимания

Чтобы избежать квадратичной работы трансформатора, во входную последовательность добавляются специальные токены, называемые токенами слияния узких мест. Теперь Z=[Zf,Zbf,Za]. Теперь внимание выполняется отдельно между Zf и Zbf (слияние по узким местам) и Za и Zbf. Таким образом, взаимодействие между различными модальностями осуществляется посредством слияния узких мест.

В целом авторы адаптируются к обычному самоконтролю на ранних уровнях, чтобы сосредоточиться на унимодальном обучении. На более поздних уровнях для мультимодального соединения может использоваться любая из трех вышеперечисленных стратегий слияния.

Подробное исследование абляции о сочетании стратегии слияния и о том, на каком слое следует сливать, было дано в статье.

Основной вывод из этой работы — различные способы соединения/объединения мультимодальных данных.

Ссылка на статью: https://arxiv.org/pdf/2107.00135.pdf

Проверка интермодальности: визуальный анализ с самостоятельным вниманием для предварительной подготовки к зрительному языку

Эта работа направлена ​​на предварительное обучение языку видения (VLP) или мультимодальное обучение посредством предварительного обучения.

1. Учитывая изображение и текст, изображение будет передано через Vision Transformer (ViT), а выходные данные ViT будут приняты в качестве визуальных токенов. Для текста токены генерируются токенизатором BERT.

2. [Cls]_[Визуальные токены]_[SEP]_[Текстовые токены] объединяются, и маски генерируются аналогично BERT.

3. Объединенный токен текста и изображения передается мультимодальному преобразователю (MT).

4. Предварительная подготовка имеет 3 целевые функции:

а. MLM (Masked Language Modelling): почти аналогично BERT, предсказывает замаскированный токен в тексте.

б. ITM (сопоставление изображения и текста): замена изображения другим изображением с вероятностью 0,5 и двоичной классификацией (то же изображение или другое изображение) используется для изучения интермодального выравнивания.

в. MFR (регрессия замаскированных признаков): он основан на предположении, что похожие визуальные маркеры имеют более высокую ценность для внимания, что представляет сильное сходство между его семантическими свойствами. Итак, они выбирают один случайный визуальный токен для маскирования, а затем выбирают топ-k токенов веса внимания для маскирования и выполняют регрессию L2 между ними.

Еще один важный вклад заключается в том, что они разработали метрику для понимания интермодального информационного потока.

A(i,j) = Сумма веса внимания между изображением и текстом в слое

A(i,i) = Сумма веса внимания между изображением той же модальности или только текстом.

IMF (интермодальный поток) = A(i,j)/[A(i,j)+A(i,i)]

Вывод — генерация визуальных токенов от ViT, и они продемонстрировали много эффективных способов использования весов внимания в разных частях сети.

Ссылка на статью: https://arxiv.org/pdf/2106.13488.pdf