SEER v2 представляет собой одну из наиболее важных эволюций в моделях компьютерного зрения с самоконтролем.

Недавно я запустил образовательный информационный бюллетень, посвященный ИИ, у которого уже более 100 000 подписчиков. TheSequence — это информационный бюллетень, ориентированный на машинное обучение, без BS (то есть без шумихи, без новостей и т. д.), чтение которого занимает 5 минут. Цель состоит в том, чтобы держать вас в курсе проектов машинного обучения, научных работ и концепций. Пожалуйста, попробуйте, подписавшись ниже:



Около года назад компания Meta(Facebook) AI Research(FAIR) представила одну из своих выдающихся моделей обучения с самоконтролем (SSL). SEER (SElf-supervised) — это модель SSL, которая может учиться на большом количестве случайных изображений. Первый выпуск SEER был ограничен 1 миллиардом параметров. На прошлой неделе команда FAIR выпустила обновленную версию SEER, которая масштабируется до 10 миллиардов параметров, что делает ее крупнейшей моделью компьютерного зрения в истории.

SEER представляет собой одну из самых важных когда-либо созданных моделей SSL и, безусловно, расширяет границы компьютерного зрения.

ВИДЯЩАЯ v1

Первая версия SEER была построена с замечательным 1 миллиардом параметров, SEER использует методы SSL, аналогичные предварительно обученным моделям NLP. Однако SEER предназначен для задач компьютерного зрения, что, как мы знаем, не самая простая задача для SSL. SEER опирается на два фундаментальных строительных блока для устранения ограничений моделей SSL в компьютерном зрении:

· Алгоритм. SEER нуждался в алгоритме, способном учиться на больших объемах неконтролируемых изображений.

· Нейронная сеть: SEER также нуждалась в архитектуре сверточной нейронной сети, которая была бы достаточно большой, чтобы обобщать знания из этого значительного набора данных.

Строительный блок алгоритма SSL основан на SwAV, который использует онлайн-кластеризацию для группировки немаркированных изображений на основе схожих концепций. SwAV оказался значительно более масштабируемым, чем другие альтернативы, достигая современной производительности с сокращением времени обучения до 6 раз. Для архитектуры нейронной сети SEER опиралась на знаменитую архитектуру RegNets, ConvNets, которая может масштабироваться до миллиардов параметров. Кроме того, сети RegNet могут быть оптимизированы для различных требований к вычислениям и памяти.

ВИДЯЩАЯ v2

Вторая версия SEER была масштабирована до 10 миллиардов параметров, что сделало ее крупнейшей моделью компьютерного зрения в своем роде. SEER v2 смог масштабировать высококачественные функции из наборов данных из более чем одного триллиона немаркированных изображений.

FAIR оценил производительность SEER по 50 различным тестам, включая различные возможности, такие как объективность, надежность, детальное распознавание, а также различные задачи классификации изображений. В дополнение к тому, что SEER v2 превзошел своего предшественника, он превзошел SSL и альтернативы с учителем в 70% тестов и получил равные оценки в остальных.

SEER v2 представляет собой серьезную эволюцию моделей SSL для компьютерного зрения. Результаты впечатляют не только с точки зрения производительности, но и в соответствующих областях, таких как справедливость и надежность.