Ссылка на мои блоги по глубокому обучению: https://rakshithv-deeplearning.blogspot.com/
Пересмотр сшивания моделей для сравнения нейронных представлений
В этой работе авторы сосредоточились на доказательстве следующего пункта, как они упомянули в статье:
мы используем сшивание моделей для получения количественных проверок интуитивных утверждений, таких как «хорошие сети изучают похожие представления» и «чем больше, тем лучше».
Основное предположение состоит в том, что хорошие модели изучают схожие внутренние представления, даже если они обучены с разными инициализациями, архитектурами и целями. Это было показано путем объединения различных моделей, обученных на одном и том же распределении данных, идентичных архитектурах и разных случайных начальных значениях с минимальными потерями при сшивании.
В этом процессе, допустим, у нас есть нейронная сеть A и нейронная сеть B с одинаковой архитектурой, теперь более ранние слои A могут быть сшиты с более поздними слоями B, и это можно назвать сшитой моделью. Слой сшивания, такой как 1x1 conv, изучается и используется для выравнивания между различными моделями (обработка сшивания не должна ограничиваться двумя моделями). Лучшие результаты были замечены, когда модель, обученная с использованием большего количества данных или лучших гиперпараметров с самоконтролем, была сшита вместе с моделью, обученной с учителем.
Ссылка на статью: https://arxiv.org/abs/2106.07682
AugMax: состязательная композиция случайных дополнений для надежного обучения
Цель аугментации — увеличить разнообразие обучающих данных, чтобы повысить их способность к обобщению. Авторы описали две основные категории аугментации:
- Увеличение разнообразия-› Это включает в себя такие простые вещи, как случайная обрезка, трансляция и т. д. Метод AugMix обеспечивает лучшее разнообразие за счет стохастического выбора различных методов увеличения.
- Hardness-› Генерация состязательного изображения для исходного изображения.
Представленная работа в основном представляет собой объединение обоих, как показано ниже:
Изображение проходит через 3 цепочки параллельно и они объединяются с обучаемым параметром «w». Затем исходное изображение и дополненное изображение объединяются с обучаемым параметром «m». Параметр «m» пытается сохранить сходство на уровне функций между исходным и дополненным изображением.
Обычная настройка обучения заключается в минимизации потерь L путем оптимизации параметра θ.
L = arg min θ [f(x),θ]
Здесь, если мы тренируемся с дополненным изображением x*
x* = g(x-origin,m&w), g->AugMax
Следовательно, L = arg min θ, arg max (m&w) [f(g(x-orig,m&w),θ]
Следовательно, это проблема минимум-максимум (m и w должны попытаться увеличить изображение таким образом, чтобы максимизировать потери модели), soft-max применяется к w, поскольку его распределение должно быть между 0 и 1.
Это аугментационная структура, обеспечивающая унификацию разнообразия и жесткости.
Ссылка на статью: https://arxiv.org/pdf/2110.13771.pdf
Узкие места для мультимодального объединения
Как мы все знаем, трансформеры стали популярным рецептом для задач, относящихся ко всем модальностям, таким как зрение, звук и текст. Предлагаемая работа говорит о другом способе объединения мультимодального ввода.
- Слияние через ванильное самовнимание
В этом методе для кадров видео генерируются токены и встраивания, аналогичные методам, упомянутым в Vision Transformer (ViT), назовем это Zf. Точно так же токены и вложения генерируются для аудиоспектрограмм, и назовем это Za. Теперь оба вложения конкатенируются [Zf].[Za] и подаются на преобразователь . Самостоятельное внимание осуществляется между вложениями кадра и аудио.
2. Слияние с параметрами модальности
В этом методе обе модальности имеют отдельные параметры как для звука, так и для кадра, но взаимодействие между модальностями достигается за счет слоев перекрестного внимания, а не слоев собственного внимания.
3. Слияние через узкие места внимания
Чтобы избежать квадратичной работы трансформатора, во входную последовательность добавляются специальные токены, называемые токенами слияния узких мест. Теперь Z=[Zf,Zbf,Za]. Теперь внимание выполняется отдельно между Zf и Zbf (слияние по узким местам) и Za и Zbf. Таким образом, взаимодействие между различными модальностями осуществляется посредством слияния узких мест.
В целом авторы адаптируются к обычному самоконтролю на ранних уровнях, чтобы сосредоточиться на унимодальном обучении. На более поздних уровнях для мультимодального соединения может использоваться любая из трех вышеперечисленных стратегий слияния.
Подробное исследование абляции о сочетании стратегии слияния и о том, на каком слое следует сливать, было дано в статье.
Основной вывод из этой работы — различные способы соединения/объединения мультимодальных данных.
Ссылка на статью: https://arxiv.org/pdf/2107.00135.pdf
Проверка интермодальности: визуальный анализ с самостоятельным вниманием для предварительной подготовки к зрительному языку
Эта работа направлена на предварительное обучение языку видения (VLP) или мультимодальное обучение посредством предварительного обучения.
1. Учитывая изображение и текст, изображение будет передано через Vision Transformer (ViT), а выходные данные ViT будут приняты в качестве визуальных токенов. Для текста токены генерируются токенизатором BERT.
2. [Cls]_[Визуальные токены]_[SEP]_[Текстовые токены] объединяются, и маски генерируются аналогично BERT.
3. Объединенный токен текста и изображения передается мультимодальному преобразователю (MT).
4. Предварительная подготовка имеет 3 целевые функции:
а. MLM (Masked Language Modelling): почти аналогично BERT, предсказывает замаскированный токен в тексте.
б. ITM (сопоставление изображения и текста): замена изображения другим изображением с вероятностью 0,5 и двоичной классификацией (то же изображение или другое изображение) используется для изучения интермодального выравнивания.
в. MFR (регрессия замаскированных признаков): он основан на предположении, что похожие визуальные маркеры имеют более высокую ценность для внимания, что представляет сильное сходство между его семантическими свойствами. Итак, они выбирают один случайный визуальный токен для маскирования, а затем выбирают топ-k токенов веса внимания для маскирования и выполняют регрессию L2 между ними.
Еще один важный вклад заключается в том, что они разработали метрику для понимания интермодального информационного потока.
A(i,j) = Сумма веса внимания между изображением и текстом в слое
A(i,i) = Сумма веса внимания между изображением той же модальности или только текстом.
IMF (интермодальный поток) = A(i,j)/[A(i,j)+A(i,i)]
Вывод — генерация визуальных токенов от ViT, и они продемонстрировали много эффективных способов использования весов внимания в разных частях сети.
Ссылка на статью: https://arxiv.org/pdf/2106.13488.pdf