1. Моделирование маскированных изображений совершенствует анализ трехмерных медицинских изображений (arXiv)

Автор: Зекай Чен, Деванш Агарвал, Кшитий Агарвал, Вим Сафта, Марианн Мицинай Балан, Венкат Сетураман, Кевин Браун

Аннотация. В последнее время значительное внимание уделяется моделированию маскированных изображений (MIM) из-за его способности учиться на огромном количестве неразмеченных данных, и была продемонстрирована его эффективность в широком спектре задач, связанных со зрением, включающих естественные изображения. . Между тем ожидается, что потенциал самоконтролируемого обучения моделированию 3D-медицинских изображений будет огромным из-за большого количества немаркированных изображений, а также стоимости и сложности маркировки качества. Однако применимость MIM к медицинским изображениям остается неопределенной. В этой статье мы демонстрируем, что подходы к моделированию маскированных изображений также могут улучшить анализ трехмерных медицинских изображений в дополнение к естественным изображениям. Мы изучаем, как стратегии моделирования маскированных изображений используют производительность с точки зрения сегментации 3D-медицинских изображений в качестве репрезентативной последующей задачи: i) по сравнению с наивным контрастным обучением подходы к моделированию маскированных изображений ускоряют конвергенцию контролируемого обучения еще быстрее (в 1,40 раза) и, в конечном счете, получить более высокий балл в кости; ii) прогнозирование необработанных значений вокселов с высоким коэффициентом маскирования и относительно меньшим размером фрагмента является нетривиальной предтекстовой задачей с самоконтролем для моделирования медицинских изображений; iii) легкая конструкция декодера или проекционной головки для реконструкции эффективна для моделирования маскированных изображений на трехмерных медицинских изображениях, что ускоряет обучение и снижает затраты; iv) наконец, мы также исследуем эффективность методов MIM в различных практических сценариях, где применяются различные разрешения изображений и отношения помеченных данных.

2. Что скрывать от учащихся: моделирование маскированных изображений с привлечением внимания (arXiv)

Автор:Иоаннис Какогеоргиу, Спирос Гидарис, Билл Псомас, Янис Авритис, Андрей Бурсук, Константинос Каранцалос, Никос Комодакис

Аннотация:преобразователи и моделирование маскированного языка быстро внедряются и исследуются в компьютерном зрении в качестве преобразователей зрения и моделирования маскированных изображений (MIM). В этой работе мы утверждаем, что маскирование токенов изображения принципиально отличается от маскирования токенов в тексте из-за количества и соотношения токенов в изображении. В частности, чтобы создать сложную предлоговую задачу для MIM, мы выступаем за переход от случайной маскировки к информированной маскировке. Мы развиваем и демонстрируем эту идею в контексте MIM на основе дистилляции, где кодировщик-преобразователь учителя создает карту внимания, которую мы используем для руководства маскированием для кодировщика ученика. Таким образом, мы вводим новую стратегию маскирования, называемую маскированием с управлением по вниманию (AttMask), и демонстрируем ее эффективность по сравнению со случайным маскированием для MIM на основе плотной дистилляции, а также самоконтролируемое обучение на основе простого дистилляции на классификационных токенах. Мы подтверждаем, что AttMask ускоряет процесс обучения и повышает производительность при выполнении различных последующих задач.

3. SimMIM: простой фреймворк для моделирования маскированных изображений (arXiv)

Автор: Чжэнда Се, Чжэн Чжан, Юэ Цао, Ютун Линь, Цзяньминь Бао, Чжулян Яо, Ци Дай, Хань Ху

Аннотация: в этом документе представлена ​​SimMIM, простая структура для моделирования маскированных изображений. Мы упрощаем недавно предложенные родственные подходы без специальных конструкций, таких как блочное маскирование и токенизация с помощью дискретного VAE или кластеризации. Чтобы изучить, что позволяет задаче моделирования маскированного изображения изучать хорошие представления, мы систематически изучаем основные компоненты в нашей структуре и обнаруживаем, что простые конструкции каждого компонента показали очень высокую эффективность обучения представлению: 1) случайное маскирование входного изображения с умеренной большой размер замаскированного фрагмента (например, 32) создает сильную задачу перед текстом; 2) прогнозирование необработанных пикселей значений RGB с помощью прямой регрессии работает не хуже, чем подходы классификации патчей со сложными конструкциями; 3) голова предсказания может быть такой же легкой, как линейный слой, с производительностью не хуже, чем у более тяжелых. Используя ViT-B, наш подход достигает 83,8% точности тонкой настройки на ImageNet-1K за счет предварительного обучения также на этом наборе данных, превосходя предыдущий лучший подход на +0,6%. При применении к более крупной модели с примерно 650 миллионами параметров, SwinV2-H, он достигает 87,1% точности первого уровня на ImageNet-1K, используя только данные ImageNet-1K. Мы также используем этот подход для облегчения обучения модели 3B (SwinV2-G), которая, используя в 40 раз меньше данных, чем в предыдущей практике, достигает современного состояния на четырех репрезентативных тестах зрения. Код и модели будут общедоступны по адресу https://github.com/microsoft/SimMIM.

4. MLIM: предварительное обучение модели видения и языка с использованием маскированного языка и моделирования изображений (arXiv)

Автор: Тарик Аричи, Мехмет Сайгин Сейфиоглу, Тал Нейман, Йи Сюй, Сон Трейн, Тришул Чилимби, Белинда Зенг, Исмаил Тутар

Выдержка. Предварительное обучение зрению и языку (VLP) повышает производительность модели для последующих задач, требующих ввода изображений и текста. Текущие подходы VLP различаются по (i) архитектуре модели (особенно средствам встраивания изображений), (ii) функциям потерь и (iii) политикам маскирования. Встраиватели изображений — это либо глубокие модели, такие как ResNet, либо линейные проекции, которые напрямую передают пиксели изображения в преобразователь. Как правило, в дополнение к потерям при моделировании маскированного языка (MLM), цели на основе выравнивания используются для межмодального взаимодействия, а задачи регрессии и классификации функций области интереса для моделирования маскированной области изображения (MIRM). Как цели выравнивания, так и цели MIRM в большинстве случаев не соответствуют истине. Цели, основанные на выравнивании, требуют сочетания изображения и текста и эвристических целевых функций. MIRM полагается на детекторы объектов. Политики маскирования либо не используют преимущества многомодальности, либо строго связаны с выравниванием, созданным другими моделями. В этой статье мы представляем маскированный язык и моделирование изображений (MLIM) для VLP. MLIM использует две функции потерь: потери при моделировании маскированного языка (MLM) и потери при реконструкции изображения (RECON). Мы предлагаем маскирование с учетом модальности (MAM), чтобы улучшить межмодальное взаимодействие и воспользоваться преимуществами потерь MLM и RECON, которые отдельно фиксируют качество реконструкции текста и изображения. Используя задачи MLM + RECON в сочетании с MAM, мы представляем упрощенную методологию VLP и показываем, что она обеспечивает лучшую производительность последующих задач в собственном мультимодальном наборе данных электронной коммерции.