1. STM-UNet: эффективная U-образная архитектура на основе Swin Transformer и многомасштабного MLP для сегментации медицинских изображений (arXiv)

Автор: Лэй Ши, Тяньюй Гао, Чжэн Чжан, Цзюньсин Чжан.

Аннотация: Автоматизированная сегментация медицинских изображений может помочь врачам ставить диагноз быстрее и точнее. Модели на основе глубокого обучения для сегментации медицинских изображений в последние годы добились больших успехов. Однако существующие модели не могут эффективно использовать Transformer и MLP для эффективного улучшения U-образной архитектуры. Кроме того, многомасштабные функции MLP не были полностью извлечены из-за узкого места U-образной архитектуры. В этой статье мы предлагаем эффективную U-образную архитектуру, основанную на Swin Transformer и мультимасштабном MLP, а именно STM-UNet. В частности, добавлен блок Swin Transformer, чтобы пропустить соединение STM-UNet в форме остаточного соединения, что может улучшить возможности моделирования глобальных функций и долгосрочной зависимости. Между тем, новый PCAS-MLP с модулем параллельной свертки разработан и помещен в узкое место нашей архитектуры, чтобы способствовать повышению производительности сегментации. Экспериментальные результаты по ISIC 2016 и ISIC 2018 демонстрируют эффективность предложенного нами метода. Наш метод также превосходит несколько современных методов с точки зрения IoU и Dice. Наш метод достиг лучшего компромисса между высокой точностью сегментации и низкой сложностью модели.

2. FreMAE: преобразование Фурье и маскированные автоэнкодеры для сегментации медицинских изображений (arXiv)

Автор: Wenxuan Wang, Jing Wang, Chen Chen, Jianbo Jiao, Lichao Sun, Yuanxiu Cai, Shanshan Song, Jiangyun Li.

Аннотация: Исследовательское сообщество стало свидетелем мощного потенциала самоконтролируемого моделирования маскированных изображений (MIM), которое позволяет моделям, способным обучаться визуальному представлению из немаркированных данных. В этой статье, чтобы включить как важную глобальную структурную информацию, так и локальные детали для задач плотного прогнозирования, мы меняем перспективу на частотную область и представляем новую платформу на основе MIM под названием FreMAE для самоконтролируемого предварительного обучения для сегментации медицинских изображений. Основываясь на наблюдениях, что подробная структурная информация в основном содержится в высокочастотных компонентах, а семантика высокого уровня изобилует низкочастотными аналогами, мы дополнительно включаем многоэтапный контроль, чтобы направлять обучение репрезентации на этапе предварительного обучения. . Обширные эксперименты с тремя эталонными наборами данных показывают превосходство предложенного нами FreMAE по сравнению с предыдущими современными методами MIM. По сравнению с различными базовыми уровнями, обученными с нуля, наш FreMAE может постоянно приносить значительные улучшения в производительность модели. Насколько нам известно, это первая попытка использования MIM с преобразованием Фурье в сегментации медицинских изображений.