Новый многообещающий метод классификации изображений

Несколько недель назад Facebook выпустил новую модель машинного обучения (Data-Efficient Image Transformer, DeIt), которая обеспечивает высочайшую производительность классификации изображений с использованием только набора данных ImageNet (1,2 миллиона изображений). Современные визуальные преобразователи могут достичь этого только с помощью сотен миллионов изображений [1]. И то, как Facebook добился этого, является самым интересным, поскольку они не использовали никаких сверток или больших наборов данных.

Как работает DeIt?

Практически ежедневно выходит множество отличных статей по машинному обучению. Причина, по которой я выбрал этот для обзора, заключается в том, что он использует некоторые интересные методы.

Один из таких приемов - внимание и трансформеры, о которых я не хочу подробно рассказывать, поскольку о них написано множество других статей. Однако я собираюсь сделать краткий обзор, чтобы мы могли изучить DeIt должным образом.

Визуальные трансформеры

Трансформаторы и внимание доминируют в сфере машинного обучения последние несколько лет. Они начали с НЛП, а теперь перешли к изображениям.

Визуальные трансформеры используют слои самовнимания с несколькими головками. Эти уровни основаны на механизме внимания, который использует запросы, ключи и векторы, чтобы обращать внимание на информацию из разных представлений в разных позициях.

Классический блок-преобразователь для изображений начинается с обычной сети прямого распространения, за которой следует слой самовнимания с несколькими головками. Один интересный момент заключается в том, что сеть с прямой связью использовала функцию активации под названием Линейная единица гауссовой ошибки, которая направлена ​​на регуляризацию модели путем случайного умножения нескольких активаций на 0.

Визуальный преобразователь имеет некоторые проблемы, которые были решены в этой статье, например:

  • Обучен на 300 млн изображений (JFT-300M [1])
  • Эти 300 миллионов изображений являются частным набором данных.
  • Это не могло быть хорошо обобщено.

Хорошо, теперь, когда мы рассмотрели основы, давайте начнем разбираться в особенностях этого документа .

Новый трюк: жетон перегонки. Что такое дистилляция?

Под извлечением знаний понимается идея сжатия модели путем обучения небольшой сети, шаг за шагом, тому, что именно нужно делать, используя уже обученную сеть большего размера. «Мягкие метки» относятся к выходным картам характеристик большей сети после каждого сверточного слоя. Затем меньшая сеть обучается изучать точное поведение более крупной сети, пытаясь воспроизвести ее результаты на каждом уровне (а не только в конечной потере).

Источник: Прахар Ганеш

Это довольно увлекательно, точно так же, как в реальном мире у нас есть учителя, в машинном обучении у нас есть более крупные и мелкие сети, имитирующие более крупные сети, чтобы учиться у них.

Типичные визуальные преобразователи используют концепцию обучаемого вектора, называемого токеном класса . Этот токен пытается заменить обычные уровни объединения, которые можно найти в сверточных нейронных сетях. Это повышает производительность модели и распространяет информацию из фрагментов изображения.

Facebook добавляет маркер дистилляции, который взаимодействует с этим маркером класса и другими начальными вложениями в начале, чтобы усилить механизм самовнимания модели. Этот токен представляет собой обучаемый вектор, который изучается во время обучения.

Его цель - минимизировать расхождение Кульбака-Лейблера (KL) между softmax учителя и softmax модели ученика (это называется мягкой дистилляцией). Все, что вам нужно знать о дивергенции KL, - это то, что она измеряет разницу между двумя распределениями.

По сути, этот маркер дистилляции пытается минимизировать разницу в информации сети ученика и сети учителя. Это впечатляющая и оригинальная стратегия!

Они также подтвердили [1] полезность этого нового токена, попытавшись добавить токен класса (вместо токена дистилляции). Результат - худшая производительность.

Обратите внимание, что сеть учителей здесь представляет собой сверточную нейронную сеть.

Полученные результаты

Одна из лучших особенностей этой статьи заключается в том, что Facebook выпустил полный код, набор данных, бумагу и многое другое. Они выпустили 3 разные модели разных размеров. И, как вы можете видеть из графика, все они работают довольно хорошо даже по сравнению с одной из лучших и новейших сетей, EfficientNet.

Подводя итог, я думаю, что это 3 основных способа достижения успеха Facebook:

  • Сила визуальных трансформеров и внимания
  • Замена встраивания слов встраиванием патчей через токен дистилляции
  • Не полагаясь на извилины

Заключительные мысли:

Идеальной модели не бывает, я уверен, что у этой модели есть несколько недостатков. Однако довольно интересно посмотреть, что делают ведущие исследователи ИИ. Я надеюсь, что у вас есть интуиция, лежащая в основе трюка с токенами дистилляции, чтобы вы могли изобретать свои собственные уловки в своих проектах машинного обучения!

Я не хотел углубляться в математику (хотя я люблю математику), чтобы статья понравилась более широкой аудитории. Если вам это интересно и вы хотите узнать больше об их результатах, я предлагаю взглянуть на бумагу.

Если вы хотите получать регулярные обзоры последних статей в области искусственного интеллекта и машинного обучения, добавьте сюда свой адрес электронной почты и подпишитесь!

Https://artisanal-motivator-8249.ck.page/5524b8f934

Ссылки:

[1] Обучение преобразователей изображений с эффективным использованием данных и дистилляции посредством внимания. Уго Туврон, Матье Корд, Маттейс Дуз, Франсиско Масса, Александр Саблейроллес и Эрве Жегу. 2021 г. В архиве