Прогрессивное разреженное локальное внимание для обнаружения видеообъектов

PSLA обеспечивает наилучшую точность по сравнению с существующими методами

Это краткое изложение исследования – лишь одно из многих, которые еженедельно публикуются в информационном бюллетене для ученых, занимающихся искусственным интеллектом. Чтобы начать получать еженедельную рассылку, зарегистрируйтесь здесь.

Точное обнаружение объектов имеет решающее значение для создания передовых приложений компьютерного зрения.

Тем не менее, стоит отметить, что разработки CNN позволили замечательно обнаруживать объекты на изображениях. Однако когда дело доходит до видеоданных, эти методы довольно неадекватны по причинам, включая проблемы, возникающие из-за размытия движения, необычных поз, расфокусированной камеры и т. д. Существует компромисс между точностью и сложностью. Эти методы также применяют оптический поток для распространения признаков высокого уровня по кадрам. Более того, для большинства этих подходов требуются дополнительные оптические потоки, чтобы обеспечить качественное обучение и высокую производительность.

Чтобы решить эту проблему и улучшить существующую производительность модели, исследователи искусственного интеллекта представили новую модель Progressive Sparse Local Attention (PSLA) для распространения высококлассных семантических функций по кадрам, не полагаясь на оптический поток.

Техника прогрессивного разреженного локального внимания (PSLA)

Новый подход обеспечивает современную производительность при обнаружении видеообъектов без необходимости полагаться на модели оптического потока. Это резко снижает параметры модели, что, в свою очередь, дает улучшенные результаты.

В новой модели также применяются методы рекурсивного обновления признаков (RFU) и плотного преобразования признаков (DFT) для моделирования внешнего вида во времени и улучшения представления признаков неключевых кадров. PSLA доказывает свою эффективность, превосходя существующие методы и достигая 81,4% mAP в наборе данных ImageNet.

Возможное использование и эффекты

Проще говоря, исследование значительно улучшит обнаружение, отслеживание и обработку видеообъектов. Это призыв к сообществу ИИ сосредоточиться на достижении большей точности в различных задачах обнаружения объектов, таких как робототехника, автономное вождение, наблюдение и т. д.

Спасибо за чтение. Пожалуйста, комментируйте, делитесь и не забывайте подписаться! Кроме того, подписывайтесь на меня в Twitter и LinkedIn. Не забудьте поставить 👏, если вам понравилась эта статья. Ваше здоровье!