Новое исследование, проведенное Южно-Китайским технологическим университетом и исследователями искусственного интеллекта Tencent WeChat, является последней плодотворной попыткой использовать архитектуру трансформатора для обнаружения объектов. Команда предлагает предварительную задачу, которую они называют обнаружение исправлений случайного запроса, чтобы неконтролируемо предварительно обучить DETR (DEtection TRansformer) для обнаружения объектов. UnsupervisedPповторное обучение DETR (UP-DETR) значительно улучшает производительность DETR, обеспечивая более быструю сходимость и более высокая точность в популярных наборах данных обнаружения объектов PASCAL VOC и COCO.

Фреймворк DETR, представленный в мае этого года компанией Facebook AI Research, рассматривает обнаружение объектов как проблему прямого прогнозирования через архитектуру преобразователя кодер-декодер. Он достиг производительности, конкурентоспособной с методами SOTA, такими как базовый уровень Faster R-CNN.

«Однако DETR сопряжен с проблемами обучения и оптимизации, для чего требуются крупномасштабные обучающие данные и чрезвычайно длительный график обучения», — отмечает команда. Такие недостатки сдерживали дальнейшие улучшения характеристик DETR. Углубившись в структуру DETR, исследователи определили, что магистраль CNN была предварительно обучена для извлечения хороших визуальных представлений, но модуль преобразования не был предварительно обучен.

Может ли это быть ключом к лучшей производительности? Неконтролируемое обучение визуальному представлению продемонстрировало значительный прогресс с хорошо разработанными предтекстовыми задачами, среди которых выделяются такие модели, как MoCo и SwAV. Но текущие предтекстовые задачи нельзя напрямую применять для предварительной подготовки DETR, которая в основном фокусируется на изучении пространственной локализации, а не на контрастном обучении на основе экземпляров изображений или кластеров.

Как правило, неконтролируемое обучение конвейеры компьютерного зрения включает в себя предварительную задачу и реальную нисходящую задачу, которая может включать классификацию или обнаружение с недостаточными аннотированными данными. Предтекстовая задача должна изучить визуальные представления, которые будут использоваться в последующих задачах.

Команда решила разработать новую предварительную задачу для предварительной подготовки преобразователей на основе архитектуры DETR для обнаружения объектов, разработав метод обнаружения исправлений случайного запроса для предварительной подготовки детектора UP-DETR без каких-либо человеческих аннотаций. После случайного вырезания нескольких исправлений запроса из входных изображений они предварительно обучили преобразователь для обнаружения, предсказывая ограничивающие рамки исправлений запроса в данном изображении. Такой подход решил две важные проблемы:

  • Многозадачное обучение: Избегайте обнаружения исправлений запроса, разрушающих функции классификации
  • Многозапросная локализация. Различные объектные запросы фокусируются на разных областях положения и размерах блоков. Для исправлений с несколькими запросами исследователи разработали подходы перемешивание объектных запросов и маска внимания для решения проблем сопоставления между исправлениями запросов и объектными запросами.

В оценках UP-DETR значительно превзошел DETR с более высокой точностью и гораздо более быстрой сходимостью. В сложном наборе данных COCO UP-DETR обеспечил 42,8 AP (средняя точность) с магистралью ResNet50, превзойдя DETR как по скорости сходимости, так и по точности.

Исследователи говорят, что они надеются, что будущие исследования смогут интегрировать CNN и предварительную подготовку преобразователя в унифицированную сквозную структуру и применять UP-DETR для дополнительных последующих задач, таких как обнаружение нескольких объектов и отслеживание объектов.

Документ UP-DETR: неконтролируемое предварительное обучение для обнаружения объектов с помощью трансформаторов находится на arXiv.

Репортер: Фанъюй Цай | Редактор: Майкл Саразен

Синхронизированный отчет | Обзор китайских решений искусственного интеллекта в ответ на пандемию COVID-19 — 87 тематических исследований от более чем 700 поставщиков ИИ

В этом отчете предлагается взглянуть на то, как Китай использует технологии искусственного интеллекта в борьбе с COVID-19. Он также доступен на Amazon Kindle. Вместе с этим отчетом мы также представили базу данных, охватывающую дополнительные 1428 решений искусственного интеллекта для 12 сценариев пандемии.

Нажмите здесь, чтобы найти больше отчетов от нас.

Мы знаем, что вы не хотите пропустить ни одной новости или научного открытия.Подпишитесь на нашу популярную рассылку Synced Global AI Weekly, чтобы получать еженедельные обновления AI.