Обучение с самоконтролем: репрезентативное обучение через инвариантные причинно-следственные механизмы

Привет, я не был активен в последнее время, но у меня есть немного свободного времени, чтобы предоставить эту часть. Я нашел больше интересных работ в разделе Обучение с самоконтролем, так что вы можете ожидать от меня больше статей на эту тему. Эта работа исходит от DeepMind, и я нашел ее очень проницательной. Если вы только начали изучать контрастное обучение, эта статья должна дать вам некоторые интересные идеи. В любом случае, надеюсь, вы найдете это полезным.

ОБУЧЕНИЕ ПРЕДСТАВЛЕНИЮ ЧЕРЕЗ ИНВАРИАНТНЫЕ ПРИЧИННЫЕ МЕХАНИЗМЫ (ReLIC)

ReLIC был предложен Mitrovic et al. в 2020 году.

Контрастное обучение было оправдано как максимизация нижней границы взаимной информации (MI) между представлениями. В этой работе авторы выдвигают гипотезу о том, что целью SSL является изучение инвариантных представлений стиля (расширение). Давайте поймем их мотивацию, используя следующий рисунок:

Подрисунок с левой стороны показывает процесс генерации изображения (X). Мы видим, что изображение X создается путем объединения информации о содержании C и информации о стиле S. Кроме того, информация о содержании C зависит от некоторой цели Y_i (здесь i обозначает некоторую задачу i, а не категорию), тогда как информация о стиле S не зависит от цели. Таким образом, цель состоит в том, чтобы изучить представления, инвариантные к стилю, которые описывают C, чтобы успешно изучить нашу цель Y_i. Формулировка ниже:

Однако авторы заявляют, что просто полагаться на контрастное обучение недостаточно для получения инвариантного представления, поэтому мы должны явно обеспечивать инвариантность при дополнениях. Таким образом, они предлагают использовать дивергенцию Кульбака-Лейблера (КЛ) вместе с контрастной потерей обучения. Общие потери представлены следующим образом:

где f и h — онлайн-кодер и импульсный энкодер (параметры обновляются с помощью экспоненциального скользящего среднего значения f) соответственно. Далее, φ(f(xi), h(xj )) = ‹g(f(xi)), g(h(xj ))› (скалярное произведение), g — полносвязное нейронную сеть часто называют критиком (или проектором). x^a означает, что изображение x дополнено с помощью политики увеличения a. Итак, первый член — это наша контрастная потеря обучения, тогда как последний — дивергенция KL.

где p^do(a_lk) обозначается как:

P.S. в основном то же вычисление логитов, что и для контрастных потерь (см. рисунок выше).

Чтобы лучше понять контрастное обучение и мотивировать эту прокси-задачу, они полагаются на причинно-следственную концепцию уточнений, которая является более тонкой проблемой какой-то другой проблемы. Например, вместо того, чтобы классифицировать кошек и собак, вы должны классифицировать отдельные породы этих животных. Самая детальная задача — это, конечно, изучение каждого экземпляра в наборе данных, что и является целью сравнительного обучения. Следовательно, они обозначают контрастное обучение как задачу уточнения.

Предположим, что Y^R является целью прокси-задачи, которая является уточнением для всех задач в Y (еще раз взгляните на первый рисунок) . Если f(X) является инвариантным представлением для Y_R при всех стилях в S, то f(X) также является инвариантным представлением для всех задач в Y. Таким образом, принудительно инвариантность (расхождение KL) при уточнении (сопоставительное обучение), мы изучаем представления, которые обобщаются для последующих задач.

ЭКСПЕРИМЕНТЫ

ReLIC был предварительно обучен на обучающем наборе набора данных ImageNet ILSGRC-2012. В приведенной выше таблице они сообщают о точности первых 1 и 5 лучших результатов в тестовом наборе ImageNet с использованием протокола линейной оценки, где они замораживают кодировщик и обучают линейный уровень для классификации. Мы видим, что ReLIC достигает сопоставимой производительности с SOTA, такой как BYOL.

Они также тестируют ReLIC для обучения с подкреплением. В приведенной выше таблице показаны нормализованные результаты по 57 играм Atari. Мы видим, что он обеспечивает более высокую производительность по сравнению с предыдущими методами SOTA. Таким образом, ReLIC хорошо обобщает различные последующие задачи.

Обучение с самоконтролем: что не должно быть контрастным в контрастном обучении
Вы найдете эту работу очень полезной, если будете изучать контрастное обучение. В отличие от предыдущих работ на…chingisoinar.medium.com

Несколько последних слов

Мы видим, что структура ReLIC проста, но обеспечивает отличную производительность. Я думаю, что это технически хорошо написанная работа. К сожалению, я не включил всю математику и теорию, но рекомендую вам ознакомиться с оригинальной статьей. Я думаю, что это дает хорошее теоретическое представление о том, почему контрастное обучение популярно в SSL. В любом случае, я продолжу работу над SSL, и вы можете ожидать, что очень скоро я приду с новыми работами в этой области. Спасибо, что уделили время чтению моей статьи!

Обучение с самоконтролем: репрезентативное обучение через инвариантные причинно-следственные механизмы

ОБУЧЕНИЕ ПРЕДСТАВЛЕНИЮ ЧЕРЕЗ ИНВАРИАНТНЫЕ ПРИЧИННЫЕ МЕХАНИЗМЫ (ReLIC)

ЭКСПЕРИМЕНТЫ

Следующий

Несколько последних слов

Вопросы по теме