В этом блоге я кратко изложу статью «Поиск TrioNet: сочетание свертки с локальным и глобальным самостоятельным вниманием» вкратце. В этой статье авторы предлагают новую архитектуру, которая представляет собой комбинацию свертки, локального и глобального самоконтроля. Кроме того, они вводят метод иерархической выборки для поиска нейронной архитектуры и метод совместного использования нескольких голов для самоконтроля.

Поиск документа TrioNet — Ссылка

Примечание. «Любой контент, скопированный с бумаги, будет выделен курсивом и заключен в кавычки».

Абстрактный

В настоящее время образцы архитектуры CNN отбираются с использованием поиска нейронной архитектуры или NAS, где модели видения с самостоятельным вниманием создаются вручную путем наложения нескольких слоев. Архитектурное пространство, в котором сочетаются свертка и самовнимание, редко исследуется. Авторы исследуют это пространство, используя алгоритмы NAS с разделением веса. Результат архитектуры был назван TrioNet — сочетание свертки, локального само-внимания и глобального (осевого) само-внимания. Помимо этого, авторы предложили новую стратегию распределения веса, совместное использование нескольких головок для операторов самоконтроля с несколькими головками. Модель превосходит модели на основе CNN с меньшими FLOP на данных классификации ImageNet. TrioNet может соответствовать производительности моделей CNN в меньших наборах данных, тогда как другие модели внутреннего внимания не соответствуют моделям CNN.

Введение

Большинство моделей построены на Convolutions. Но недавно мы увидели, что модели самоконтроля превосходят или, по крайней мере, не уступают моделям классификации/сегментации на основе CNN. Но эти модели самоконтроля созданы людьми, поэтому достижение наилучших результатов в новых наборах данных или задачах затруднено.

Нейронный поиск архитектуры или NAS — это эффективный метод автоматического поиска желаемых архитектур с минимальными усилиями человека. Проще говоря, NAS принимает в качестве входных данных целевой набор данных, задачу и бюджет вычислений. NAS успешно применяется для решения таких задач, как обнаружение объектов, понимание видео и семантическая сегментация. Архитектуры EfficientNet являются результатом работы NAS! Чтобы узнать больше о NAS, пожалуйста, прочитайте этот блог — Medium Link.

Рисунок 1. Поиск A и D в TrioNet. x1/2, x1/4, x1/8 — скорость расширения. В этой архитектуре на нижних уровнях используются конвективы, а на верхних — самостоятельный поиск.

В NAS, как правило, оператор Self-Attention никогда не рассматривался как реальная операция, такая как Convolution. Авторы увидели, что использование Self-Attention в качестве операции было затруднено в методах NAS с разделением веса, поскольку Self-Attention имеет более широкое пространство поиска, включая запрос, ключи, значения, пространственную протяженность и числа с несколькими головками, тогда как CNN имеет размер ядра и ширину в поисковое пространство.

Авторы предлагают Иерархическую выборку, которая гарантирует, что каждый оператор (Conv, Внимание) получит равные шансы на обучение в суперсети.

Другой проблемой была текущая стратегия разделения веса для алгоритмов NAS. Текущий алгоритм «использует первые несколько каналов матрицы полного веса для построения веса для небольших моделей. Однако при самоконтроле каналы разделены на группы с несколькими головками для захвата различных зависимостей. Текущая стратегия распределения весов игнорирует структуру весов с несколькими головками и выделяет один и тот же канал для разных головок, заставляя один и тот же канал одновременно фиксировать разные типы зависимостей». Чтобы решить эту проблему, авторы предложилистратегию совместного использования нескольких головок.

Это четыре вклада авторов, включая архитектуру TrioNet.

Методы

Пространство поиска на уровне оператора

В данной статье авторы вводят операторы внутреннего внимания в операторное пространство NAS. Авторы используют аксиальное внимание вместо полносвязного 2D-внимания к себе. Локальное внутреннее внимание используется в пространстве поиска, так как «неясно, сколько слоев локального внутреннего внимания следует использовать для каждого этапа или как выбрать размер окна для каждого слоя».

Пространство поиска на уровне архитектуры

Авторы используют ResNet-подобную модель для построения своей архитектуры с использованием пространства поиска в NAS. Они заменяют все конвекции 3x3 своим поисковым пространством на уровне оператора, содержащим конвекции, локальные и глобальные/осевые самостоятельные внимания.

Поиск трубопровода

Для поиска моделей авторы используют конвейер one-shot NAS.

Иерархическая выборка

Для каждого блока первые пространственные операторы отбираются равномерно, а затем отбирается кандидат из пространства операторов, поскольку было обнаружено, что пространство поиска сильно смещено в сторону оператора локального внимания. Правило сэндвича использовалось после выбора оператора для каждого блока, так как область поиска была заполнена моделями среднего размера.

Совместное использование нескольких головок

Я обнаружил, что описание в статье легко понять, поэтому я цитирую статью. “

«Ссылаясь на рисунок выше, авторы учитывают структуру с несколькими головками и сначала разделяют все выходные каналы на группы по количеству головок. Затем они совместно используют веса каналов только в том случае, если они принадлежат одной и той же голове в режиме многоголового собственного внимания».

Полученные результаты

Из этих результатов мы видим, что TrioNet превосходит/работает на номинальном уровне по сравнению с предыдущими моделями SOTA. TrioNets требует меньших FLOP по сравнению с другими моделями SOTA.

Эпилог

Таким образом, мы увидели, что комбинация слоев Convs и Self-внимания работает намного лучше, чем только модели Convs или только модели Self-внимания, при этом требуя меньших FLOP.

Считается, что рано или поздно трансформерные архитектуры тоже поступят в производство и заменят модели CNN. Есть еще несколько проблем с моделями Transformer, такими как они требуют огромного количества данных и не являются эквивалентными для перевода.

Я настоятельно рекомендую прочитать статью один раз, чтобы получить хотя бы четкое представление о проведенных экспериментах.

Спасибо за прочтение :). Подписывайтесь на меня на Medium, чтобы получать такие резюме.

Свяжитесь со мной и в LinkedIn :D.