За последние 12 месяцев мы увидели быстрый прогресс в области компьютерного зрения, начиная с поддерживающей инфраструктуры и заканчивая новыми приложениями в различных отраслях, алгоритмическими прорывами в исследованиях и взрывом искусства, созданного искусственным интеллектом. Было бы невозможно подробно осветить все эти разработки в одном посте блога. Тем не менее, стоит оглянуться назад, чтобы выделить некоторые из крупнейших и наиболее интересных разработок в этой области.

Этот пост разбит на пять частей:

Тенденции компьютерного зрения

Трансформеры овладевают компьютерным зрением

Модели-трансформеры ворвались на сцену глубокого обучения в 2017 году с выпуском Внимание — это все, что вам нужно, установив стандарт для множества задач НЛП и открыв эру больших языковых моделей (LLM). Vision Transformer (ViT), представленный в конце 2020 года, стал первым применением этих моделей, основанных на внутреннем внимании, в контексте компьютерного зрения.

В этом году исследования выдвинули модели-трансформеры на передний план компьютерного зрения, добившись передовой производительности в различных задачах. Просто взгляните на множество моделей трансформеров зрения в модельном зоопарке Hugging Face, включая DETR, SegFormer, Swin Transformer и ViT! Эта страница GitHub также предоставляет довольно полный список трансформеров в видении.

Компьютерное зрение, ориентированное на данные, набирает обороты

По мере развития компьютерного зрения все большая часть конвейеров разработки машинного обучения сосредоточена на обработке, очистке и дополнении данных. Качество данных становится узким местом для производительности, и отрасль движется к совместному проектированию моделей данных. Движение Data-centric ML набирает популярность.

Во главе этих усилий стоит новая волна стартапов — компании по генерации синтетических данных (gretel, datagen, tonic) и инструменты оценки, наблюдения и отслеживания экспериментов (Voxel51, Weights & Biases, CleanLab) — подключение существующих сервисов маркировки и аннотации (Labelbox, Label Studio, CVAT, Scale, V7).

Художественное произведение, созданное искусственным интеллектом, становится (слишком?) хорошим

Между улучшениями в генеративно-состязательных сетях (GAN) и быстрым развитием и итерацией моделей распространения искусство, созданное ИИ, переживает то, что можно назвать только ренессансом. С такими инструментами, как Stable Diffusion, Nightcafe, Midjourney и DALL-E2 OpenAI, теперь можно создавать изображения с невероятной детализацией из текстовых подсказок, введенных пользователем. Artbreeder позволяет пользователям разводить несколько изображений в новые творения, Make-A-Video от Meta генерирует видео из текста, а RunwayML изменил правила игры, когда дело доходит до создания анимации и редактирования видео. Многие из этих инструментов также поддерживают закрашивание и перекрашивание, которые можно использовать для редактирования и расширения области изображений.

Со всеми этими инструментами, революционизировавшими художественные возможности ИИ, споры были почти неизбежны, и их было много. В сентябре созданное искусственным интеллектом изображение выиграло конкурс изобразительного искусства, вызвав жаркие споры о том, что считать искусством, а также о том, как право собственности, атрибуция и авторские права будут работать для этого нового класса контента. Ожидайте, что эта дискуссия усилится!

Мультимодальный ИИ развивается

Помимо произведений искусства, созданных искусственным интеллектом, в 2022 году появилось множество исследований и приложений на пересечении нескольких модальностей. Модели и конвейеры, работающие с несколькими типами данных, включая язык, аудио и зрение, становятся все более популярными. Границы между этими дисциплинами никогда не были более размытыми, а перекрестное опыление никогда не было более плодотворным.

В основе этого столкновения контекстов лежит контрастное обучение, которое обновляет встраивание нескольких типов данных в одно и то же пространство, основополагающим примером является модель Open AI Contrastive Language-Image Pretraining (CLIP).

Одним из следствий этого является возможность семантического поиска в наборах изображений на основе входных данных, которые могут быть либо текстом, либо другим изображением. Это вызвало бум векторных поисковых систем, среди которых Qdrant, Pinecone, Weaviate, Milvus и другие. В том же духе систематическая связь между модальностями укрепляет визуальные ответы на вопросы и классификацию изображений с нулевым и малым количеством кадров.

Ажиотаж о компьютерном зрении от крупных технологических компаний

Поскольку размеры наборов данных продолжают расти, вычислительные и финансовые ресурсы, необходимые для обучения больших высококачественных моделей с нуля, резко возросли. В результате многие из наиболее широко применимых достижений в этом году были либо реализованы, либо поддержаны учеными из крупных технологических исследовательских групп. Вот некоторые из основных моментов.

Алфавит

В этом году Alphabet активно работал над компьютерным зрением: команда Google Brain изучала масштабирование трансформеров зрения, а исследования Google разрабатывали контрастные субтитры (CoCa). Команда Google Brain также расширила свою модель преобразования текста в изображение Imagen на домен видео с помощью Imagen Video. DeepMind представила новую парадигму самоконтролируемого обучения, достигнув самых современных результатов в различных задачах трансферного обучения. Наконец, Google выпустил Open Images V7, который добавляет ключевые точки к более чем миллиону изображений.

Амазонка

Amazon был, мягко говоря, плодовитым: 40 документов были приняты только на CVPR и ECCV. Подчеркнем этот настоящий шквал исследований статья о преобразовании изображений в карты, получившая награду за лучшую статью на ICRA 2022, метод оценки предвзятости в системах проверки лиц без полных (или каких-либо) меток и систематического рецепта. для изменения определенных функций в изображениях, сгенерированных GAN, который работает путем переделки проблемы на языке факторов Рэлея.

Майкрософт

Microsoft проделала большую работу с моделями Transformer. Это был только январь, когда документ Microsoft, представляющий BEiT (Предварительное обучение BERT для преобразователей изображений), был принят в ICLR, и последующее семейство моделей стало основным продуктом ландшафта моделей Transformer, с базовой моделью, насчитывающей 1,4 миллиона + загрузок с Hugging Face только за последний месяц. Семейство BEiT расцветает благодаря статьям о предварительном обучении генеративного зрения и языка (VL-BEiT), моделировании маскированных изображений с помощью векторных квантованных визуальных токенизаторов (BEiT V2) и моделировании изображение как иностранный язык.

Помимо BEiT, Microsoft воспользовалась волной Swin Transformer, которую они создали в прошлом году с StyleSwin и Swin Transformer V2. Другие известные работы 2022 года включают MiniViT: сжатие преобразователей изображения с мультиплексированием весов, RegionCLIP: предварительное обучение языку и изображению на основе региона и NICE-SLAM: нейронное неявное масштабируемое кодирование для SLAM.

Мета

Meta уделяла большое внимание мультимодальному машинному обучению на пересечении языка и видения. Audio-visual HuBERT добился передовых результатов в чтении по губам и аудиовизуальном распознавании речи. Визуальное распознавание речи для нескольких языков в дикой природе демонстрирует, что добавление дополнительных задач в модель визуального распознавания речи (VSR) может значительно повысить производительность. FLAVA: базовая модель согласования языка и зрения представляет собой единую модель, которая хорошо работает в 35 различных задачах языка и зрения. А data2vec представляет собой единую структуру для самостоятельного обучения, которая охватывает зрение, речь и язык.

С DEiT III исследователи из Meta AI пересматривают этап обучения для Vision Transformers и показывают, что модель, обученная с увеличением базовых данных, может значительно превзойти полностью контролируемые ViT. Мета также добилась прогресса в непрерывном обучении для реконструкции полей со знаком расстояния (SDF), и группа исследователей, включая Яна Лекуна, поделилась теоретическими соображениями о том, почему контрастное обучение работает. Прочитай это. Действительно.

Наконец, в сентябре Meta AI превратила PyTorch в независимую от поставщика PyTorch Foundation, которая вскоре после этого выпустила PyTorch 2.0.

Adobe

В 2022 году Adobe взяла сложный механизм современного компьютерного зрения и использовала его для художественных задач манипулирования, таких как редактирование, изменение стиля и перестановка. Третий раз — это очарование? позволяет Nvidia StyleGAN3 работать с изображениями и видео, вводя схему инверсии видео, которая уменьшает прилипание текстур. BlobGAN моделирует сцены как наборы клякс среднего уровня (между уровнем пикселей и уровнем изображения), которые без присмотра связываются с объектами сцены, что позволяет редактировать сцены на уровне объектов. ARF: Artistic Radiance Fields ускоряет создание художественного 3D-контента, сочетая передачу стиля с нейронными полями сияния (NeRF).

Нвидиа

Nvidia внесла свой вклад по всем направлениям, включая многочисленные работы по выполнению задач трехмерного компьютерного зрения с однопроекционными (монокулярными) изображениями и видео. CenterPose устанавливает стандарт для оценки позы с 6 степенями свободы (DoF) уровня категории с использованием только одноэтапной сети; GLAMR глобально помещает человека в 3D-пространство по видеороликам, записанным динамическими (движущимися) камерами; и, разделив задачи генерации признаков и нейрорендеринга, EG3D может создавать высококачественную 3D-геометрию из отдельных изображений.

Другие известные работы включают GroupViT, FreeSOLO и обзорный документ ICLR Решение трилеммы генеративного обучения с помощью шумоподавляющих диффузионных GAN.

Электрификация новых приложений Computer Vision

Компьютерное зрение теперь играет роль во всем, от спорта и развлечений до строительства, безопасности и сельского хозяйства, и в каждой из этих отраслей слишком много компаний, использующих компьютерное зрение, чтобы сосчитать. В этом разделе освещаются некоторые ключевые разработки в некоторых отраслях, где компьютерное зрение становится все более распространенным явлением.

Виды спорта

Компьютерное зрение использовалось на самом крупном этапе, когда ФИФА использовала полуавтоматическую систему для обнаружения офсайдов на чемпионате мира в Катаре. Они также использовали компьютерное зрение, чтобы предотвратить давку на стадионе.

Другие заслуживающие внимания разработки включают «Sportsbox AI, привлекший серию A на сумму 5,5 млн. который автоматически подсчитывает удары и редактирует видео бокса.

Климат и сохранение

Стартап экономики замкнутого цикла Greyparrot привлек раунд серии A на сумму 11 миллионов долларов для своей системы мониторинга отходов на основе компьютерного зрения. Углеродная торговая площадка NCX, которая использует передовые модели компьютерного зрения со спутниковыми изображениями для точной оценки древесины и углеродного потенциала, привлекла серию B на сумму 50 миллионов долларов. А Microsoft объявила об инициативе Microsoft по исследованию климата (MCRI), в которой будет размещен их компьютер видение климатических усилий при картировании возобновляемых источников энергии, картировании земного покрова и картировании ледников.

Автономные транспортные средства

2022 год был несколько неоднозначным для индустрии автономных транспортных средств в целом: компания по производству беспилотных автомобилей Argo AI прекратила работу в октябре, а Ford и Rivian сместили акцент с L4 (высокоавтоматизированный) на L2. (частичная) и L3 (условная) автоматизация. Apple также недавно объявила, что сокращает свои усилия по созданию беспилотных автомобилей, Проект Титан и откладывает запуск до 2026 года.

Тем не менее, было несколько заметных побед компьютерного зрения. Исследователи из Массачусетского технологического института выпустили первый фотореалистичный симулятор автономного вождения с открытым исходным кодом. Подразделение помощи водителю Mobileye провело IPO на сумму 861 млн долларов после отделения от Intel. Google приобрела стартап Phiar в области пространственного ИИ и мобильности. А Waymo запустила сервис автономных транспортных средств в центре Феникса.

Здоровье и медицина

В Австралии инженеры разработали многообещающий бесконтактный подход для определения артериального давления на основе компьютерного зрения, который может предложить альтернативу традиционным надувным манжетам. Кроме того, Google начала лицензировать свой инструмент обнаружения рака молочной железы на основе компьютерного зрения поставщику услуг по обнаружению и лечению рака iCAD.

Выдающиеся статьи в области компьютерного зрения, мимо которых невозможно пройти

Стартапы CV-инструментов растут в размерах и влиянии

Заключение

2022 год был чрезвычайно активным для машинного обучения, и особенно для компьютерного зрения. Сумасшествие заключается в том, что быстрые темпы развития исследований, рост числа практиков и внедрение в промышленности, похоже, ускоряются. Посмотрим, что готовит 2023 год!

Набор инструментов компьютерного зрения FiftyOne

FiftyOne — это набор инструментов машинного обучения с открытым исходным кодом, разработанный Voxel51, который позволяет группам специалистов по обработке и анализу данных повышать производительность своих моделей компьютерного зрения, помогая им выбирать высококачественные наборы данных, оценивать модели, находить ошибки, визуализировать встраивания и быстрее приступать к работе.