Обнаружение и отслеживание объектов имеют решающее значение для вариантов использования робототехники, однако существующие роботизированные системы слежения за объектами страдают от двух заметных ограничений: их способность адаптироваться к новым объектам плохая, поскольку они закрыты и способны обрабатывать только фиксированный набор объектов. категории; они не удобны для пользователя, поскольку конечным пользователям часто бывает сложно указать целевые объекты.

В новой статье Follow Anything: обнаружение, отслеживание и отслеживание открытого множества в режиме реального времени исследовательская группа из Массачусетского технологического института и Гарвардского университета представляет систему следования за чем угодно (FAn), реальную систему с открытым набором -время любого объекта следует за структурой, которая может обнаруживать, сегментировать, отслеживать и отслеживать любой объект, а также способна адаптироваться к новым объектам с использованием текста, изображений или запросов щелчков.

Команда резюмирует своих ключевых персонажей предлагаемого ФАН следующим образом:

  1. Открытый мультимодальный подход для обнаружения, сегментации, отслеживания и отслеживания любого объекта в режиме реального времени.
  2. Единая система, легко развертываемая на роботизированной платформе (в нашей работе — микролетательный аппарат).
  3. Встроены механизмы повторного обнаружения, которые учитывают сценарии, когда интересующий объект перекрыт или отслеживание потеряно.

Команда определила задачу по следованию объекту с открытым словарным запасом так, что при наличии роботизированной системы, оснащенной встроенной камерой, а также интересующего объекта, цель состоит в том, чтобы обнаружить интересующий объект, а робот управляет так, чтобы интересующий объект был ограничен. в поле зрения бортовой камеры.

Для достижения этой цели FAn объединяет самые современные модели ViT, оптимизирует их для обеспечения обработки в реальном времени и объединяет в единую систему. В частности, исследователи используют модель сегментирования чего-либо (SAM) для сегментации, DINO и CLIP для эффективного изучения визуальных концепций на естественном языке и разработки облегченного…