Скотт Кларк, старший научный сотрудник Clarifai

Глубокое обучение (ГО) пережило взрыв активности за последние 20 лет. Благодаря Интернету и инвестициям таких компаний, как Clarifai и NVIDIA, каждый год происходит прогресс в области глубокого обучения, особенно в области компьютерного зрения и обработки естественного языка. Хотя CV и NLP используют глубокое обучение, традиционно они используют совершенно разные архитектуры нейронных сетей для выполнения своих различных задач.

Был некоторый уровень перекрестного опыления, например. использование сверточных нейронных сетей (исторически использовавшихся в компьютерном зрении) в НЛП для классификации текста, но в целом современная архитектура (СОТА) в классификации изображений вряд ли будет носить титул СОТА на задача НЛП и наоборот. Однако недавняя статья показала, что модуль нейронной сети, обычно связанный с НЛП, преобразователь, может применяться к задачам CV и давать результаты наравне со сверточной архитектурой SOTA. Это масштабное развитие в области глубокого обучения, и оно имеет невероятно далеко идущие последствия для будущего исследований нейронных сетей. С тех пор как AlexNet был выпущен в 2012 году, сверточные нейронные сети доминировали в области обработки изображений в области глубокого обучения.

CNN особенно полезны для работы с данными, в которых пространственные рассуждения являются ключевыми, такими как изображение: типичное изображение состоит из массива HEIGHTxWIDTHxCHANNELS, где каждое положение X/Y или пиксель в массиве кодирует интенсивность красного, зеленого и синий (RGB).

CNN применяют серию изученных фильтров к пикселям в локальном окружении, извлекая функции, которые объединяются и используются нижестоящими сетевыми уровнями для выполнения конкретной задачи, такой как классификация изображений или обнаружение объектов. Типичным примером, используемым для демонстрации ценности CNN на вводных курсах глубокого обучения, является MNIST, простой набор данных классификации изображений для рукописных чисел. Фильтр на первом уровне CNN может быть детектором краев, тогда как фильтр на более позднем этапе архитектуры будет использовать эти идентифицированные линии для идентификации более крупных структур, таких как круги, найденные в числе «8», или найденный прямой угол. над цифрой 5.

По этой причине CNN обычно описывают как экстракторы иерархических признаков: ранние слои идентифицируют низкоуровневые структуры в изображении (например, края, линии, кривые), а более глубокие слои объединяют их для идентификации макроструктур (например, глазного яблока, автомобильной фары). , и т.д.). Идентификация этих различных структур позволяет традиционным полносвязным/плотным слоям в самых глубоких слоях модели определить, какому классу соответствует изображение.

В то время как CNN использовались в CV с самого начала современного глубокого обучения, более новая архитектура, называемая преобразователем, стала обычной практикой для работы с неструктурированными текстовыми данными. До появления преобразователя большинство задач НЛП основывались на той или иной форме рекуррентной нейронной сети (РНС), в которой (обычно) каждая точка данных обрабатывается итеративно в соответствии с некоторым последовательным порядком.

В то время как RNN имеют прочную индуктивную предвзятость к временным/последовательным данным, таким как предложения, каждый новый фрагмент информации (в случае НЛП, каждое слово) должен обрабатываться последовательно. Это создает пару проблем: во-первых, такой подход препятствует распараллеливанию, резко увеличивая время обработки одного семпла. Во-вторых, поскольку RNN обрабатывают информацию итеративно, передавая только частичную информацию вперед во времени, действительно глобальной операции не происходит, и информация из начала предложения может быть забыта сетью к тому времени, когда она начинает обрабатывать последний временной шаг. В 2016 году в статье Attention is All You Need авторы показали, что от рекуррентных и сверточных архитектур можно отказаться, используя то, что авторы называют механизмом внимания. В текстовой области этот механизм внимания создает матрицу для каждого предложения, которая изучает попарные отношения между каждым словом, применяя линейное преобразование к каждому вектору слова и вычисляя (масштабированное) скалярное произведение между ними.

Учитывая, что трансформер изначально инвариантен к перестановкам и что одни и те же слова могут означать разные вещи в разном порядке (например, «он пошел в зоомагазин» вместо «он пошел в магазин за питомцем»), каждое вложение слова объединяется с позиционное вложение. Избавляясь от повторяющихся соединений в сети, проблемы, традиционно связанные с RNN (исчезающий градиент с длинными последовательностями, потеря информации в прямом проходе, отсутствие распараллеливания), смягчаются, и, таким образом, становится возможным обучение с массивными моделями.

Трансформеры использовались для НЛП с момента их создания, но они также медленно проникали в пространство компьютерного зрения. Еще в мае 2020 года Facebook AI выпустил документ «Сквозное обнаружение объектов с преобразователями», в котором предлагается архитектура DETR, в которой блок и классификационные головки, обычно присоединяемые к сверточному кодировщику для обнаружения объектов, заменяются преобразователем. позволяя по-настоящему безанкорное обнаружение объектов с использованием глобального внимания.

Хотя этот результат был интересным и большим шагом вперед для использования преобразователей в компьютерном зрении, их архитектура по-прежнему полагалась на сверточные слои для кодирования признаков и не была самой современной в отношении средней средней точности или скорости вывода. В еще более свежей статье «Изображение стоит 16x16 слов: преобразователи для распознавания изображений в масштабе» группа авторов использовала преобразователь для изображений и показала, что они могут превзойти существующие архитектуры SOTA.

Вместо того, чтобы рассматривать отдельные слова, авторы разбивают изображение на разные фрагменты, которые объединяются в векторы и внедряются с позиционным кодированием. Подобно BERT от Google, эти исправления также имеют обучаемую функцию, которая представляет класс, к которому принадлежат изображения. В ходе эксперимента авторы построили три архитектуры ViT разного уровня сложности: базовую модель, большую модель и огромную модель. Каждая модель была предварительно обучена на наборе данных JFT-300M, собственном наборе данных, принадлежащем Google. Эти модели были протестированы на различных тестах по сравнению с двумя предыдущими моделями SOTA Google BiT (Kolesnikov et al 2020) и Noisy Student (Xie et al 2020), обе из которых также были обучены на наборе данных JFT-300M. Все три модели ViT превзошли BiT и Noisy Student, используя значительно меньше вычислительных ресурсов.

Точные результаты представлены ниже, включая все три модели ViT, задачу (ImageNet, CIFAR и т. д.) и время вычислений в днях ядер TPUv3 (количество дней, необходимых для обучения, умноженное на количество ядер TPUv3). Хотя очень обнадеживает тот факт, что ViT может конвергировать при более низкой стоимости TPU, чем Noisy Student или BiT, также стоит отметить, что ViT в его нынешнем состоянии все еще, вероятно, непомерно дорог для большинства независимых исследователей, требуя 230–2,5 тыс. TPUv3. основные дни. Тот факт, что эти модели также были обучены на эксклюзивном наборе данных Google, не сильно способствует их доступности.

Авторы провели дополнительные эксперименты с использованием «гибридной» архитектуры, в которой их архитектура преобразования на основе патчей применяется к картам объектов, извлеченным с помощью свертки, а не к необработанным пикселям, аналогично тому, как DETR использует модуль преобразования. Авторы обнаружили, что в режиме «низких» вычислений использование сверточного кодировщика значительно повышает производительность, но по мере увеличения вычислений перед обучением разрыв в производительности исчезает; это, по-видимому, связано с репутацией трансформаторов, которые чрезвычайно прожорливы к данным и вычислениям. Хотя трансформеры не новы в глубоком обучении, их успешное применение в компьютерном зрении является.

Трансформеры, удерживающие SOTA в тесте видения, безусловно, являются огромным прорывом, но неясно, смогут ли они конкурировать со свёрточными сетями в (относительно) режиме «малых данных и низких вычислений» в долгосрочной перспективе. Еще более интересным, чем результаты любой отдельной статьи, является возможность конвергенции NLP и CV вокруг схожих архитектурных компонентов; если эта тенденция сохранится, она может быстро ускорить развитие отрасли в целом, как и сообщества ДО, поскольку многие его ниши и подкатегории начинают применять схожие методы для решения самых разных проблем.

Трансформеры существуют всего 4 года, но ясно, что их влияние на исследования глубокого обучения будет ощущаться еще долгие годы. www.clarifai.com