Публикации по теме 'vision-transformer'


Точная настройка модели Segment-Anything
В этом сообщении блога мы рассмотрим процесс тонкой настройки SAM (Segment-Anything-Model), модели семантической сегментации изображений. Мы углубимся в причины тонкой настройки, какие доступные стратегии и я поделюсь советами и предостережениями из моих собственных экспериментов. SAM — это мощная модель семантической сегментации изображений, предназначенная для точного прогнозирования масок на уровне пикселей для широкого диапазона объектов на изображении. Он состоит из трех частей:..

FocalNets от Microsoft заменяет самовнимание ViT на фокусную модуляцию для улучшения зрения…
За пять лет, прошедших с момента их появления, архитектуры-трансформеры стали доминировать в области исследований обработки естественного языка. Недавно преобразователи зрения (ViT) также продемонстрировали свою мощь и потенциал в широком спектре задач компьютерного зрения. Хотя успех трансформеров во многом…

MAE/SimMIM для предварительного обучения, как замаскированная языковая модель
Об этом посте В этом посте я представляю недавно опубликованный метод обучения с самостоятельным наблюдением в рамках, похожих на маскированные языковые модели. В этой статье представлены две статьи: MAE (He et al., 2021) и SimMIM (Xie et al., 2021) . Каждую из них можно кратко резюмировать следующим образом. MAE Авторы предложили MAE (Masked Autoencoders), который представляет собой самоконтролируемый метод обучения, который маскирует изображение и восстанавливает его. Несмотря..

Преобразователи и мультимодальность: один и тот же ключ для всех типов данных
Мир машинного обучения, несомненно, увлекательный, постоянно растущий и способный затронуть самые разные отрасли, от медицины до космических гонок, от общепита до крупного производства. Существует бесчисленное множество областей применения этой технологии и столько же методов, которые были разработаны на протяжении десятилетий, но все они имеют одну общую черту: данные. Каждая модель машинного обучения существует и работает благодаря тому, что она так или иначе может учиться на данных...

Команда Kaiming He из MetaAI предлагает ViTDet: магистральную сеть Plain Vision Transformer, конкурирующую с…
Обнаружение объектов — это фундаментальная задача компьютерного зрения, обычно выполняемая детекторами, состоящими из независимой от задачи основы и независимо разработанных шеек и головок, которые включают предварительные знания, специфичные для обнаружения. Из-за де-факто конструкции…

Что такое преобразователи зрения и насколько они важны для общего обучения?
Изучение концепции и эксперименты с примерами приложений За последние несколько лет в области ИИ произошел значительный прогресс. Генеративные модели оказались наиболее успешными в области машинного зрения, однако они созданы для узкоспециализированных задач. Эти специализированные модели обучения требуют реконструкции или переобучения всякий раз, когда задача меняется. Поэтому интерес к моделям обучения общего назначения возрастает. Одна из таких моделей называется Трансформеры...

Video Swin Transformer улучшает компромисс между скоростью и точностью, добивается результатов SOTA на видео ...
Архитектура трансформатора трансформирует компьютерное зрение. Представленный в 2020 году Vision Transformer (ViT) глобально соединяет участки в пространственном и временном измерениях и в значительной степени заменил сверточные нейронные сети (CNN) в качестве средства моделирования для исследователей в этой области. В новом документе Video Swin Transformer исследовательская группа из Microsoft Research Asia, Университета науки и технологий Китая, Университета науки и технологий..