1. Контрастная настройка: небольшая помощь, чтобы забыть о маскированных автоэнкодерах (arXiv)

Автор: Оханнес Ленер, Бенедикт Алкин, Андреас Фюрст, Элизабет Руметсхофер, Лукас Миклаутц, Зепп Хохрайтер.

Аннотация: методы моделирования маскированных изображений (MIM), такие как маскированные автоэнкодеры (MAE), эффективно изучают богатое представление входных данных. Однако для адаптации к последующим задачам им требуется достаточное количество размеченных данных, поскольку их богатые возможности захватывают не только объекты, но и менее релевантный фон изображения. Напротив, методы распознавания экземпляров (ID) сосредоточены на объектах. В этой работе мы изучаем, как совместить эффективность и масштабируемость MIM со способностью ID выполнять нисходящую классификацию при отсутствии больших объемов размеченных данных. С этой целью мы вводим контрастную настройку маскированного автоэнкодера (MAE-CT), последовательный подход, который применяет контрастное обучение ближайших соседей (NNCLR) к предварительно обученному MAE. MAE-CT настраивает расширенные функции таким образом, чтобы они формировали семантические кластеры объектов без использования каких-либо меток. Применительно к большим и огромным моделям Vision Transformer (ViT) MAE-CT соответствует или превосходит предыдущие методы с самоконтролем, обученные на ImageNet, в линейном зондировании, k-NN и точности классификации с малым выстрелом, а также в точности кластеризации без учителя. Примечательно, что аналогичные результаты могут быть достигнуты без дополнительной аугментации изображения. В то время как методы ID обычно полагаются на ручные дополнения, чтобы избежать ускоренного обучения, мы обнаружили, что поиска ближайшего соседа достаточно, и что этот эффект увеличения на основе данных улучшается с увеличением размера модели. MAE-CT эффективен с точки зрения вычислений. Например, начиная с предварительно обученного MAE ViT-L/16, MAE-CT увеличивает точность 1-процентного измерения ImageNet с 67,7 % до 72,6 %, точность линейного зондирования с 76,0 % до 80,2 % и точность k-NN с 60,6% до 79,1% всего за пять часов с использованием восьми графических процессоров A100

2. W-MAE: предварительно обученная модель погоды с автоэнкодером в масках для прогнозирования погоды с несколькими переменными (arXiv).

Автор: Чэнь Синь, Чэнхун Чжан, Чанъюй Ли, Цзе Шао.

Аннотация: Прогнозирование погоды является давней вычислительной задачей с прямыми социальными и экономическими последствиями. Эта задача включает в себя большой объем непрерывного сбора данных и демонстрирует богатые пространственно-временные зависимости в течение длительных периодов времени, что делает ее очень подходящей для моделей глубокого обучения. В этой статье мы применяем методы предварительного обучения для прогнозирования погоды и предлагаем W-MAE, модель погоды с предварительным обучением Masked AutoEncoder для прогнозирования погоды с несколькими переменными. W-MAE предварительно обучен в режиме самоконтроля для восстановления пространственных корреляций в метеорологических переменных. Во временном масштабе мы точно настраиваем предварительно обученный W-MAE для прогнозирования будущих состояний метеорологических переменных, тем самым моделируя временные зависимости, присутствующие в данных о погоде. Мы предварительно обучаем W-MAE, используя данные реанализа ECMWF пятого поколения (ERA5), с образцами, отбираемыми каждые шесть часов и используя данные только за два года. При тех же условиях обучающих данных мы сравниваем W-MAE с FourCastNet, и W-MAE превосходит FourCastNet в прогнозировании осадков. В условиях, когда данных для обучения намного меньше, чем у FourCastNet, наша модель по-прежнему работает намного лучше в прогнозировании осадков (0,80 против 0,98). Кроме того, эксперименты показывают, что наша модель имеет стабильное и значительное преимущество в краткосрочном и среднесрочном прогнозировании (т. W-MAE, еще раз доказав свою надежность