Понимание эффективного рецептивного поля в глубоких сверточных нейронных сетях

В глубоких сетях рецептивное поле — или поле зрения — это область во входном пространстве, которая влияет на характеристики определенного слоя, как показано на рис. 1. Рецептивное поле важно для понимания и диагностики производительности сети. Глубокие сети должны быть разработаны с рецептивным полем, которое покрывает всю соответствующую область изображения, потому что сеть не обращает внимания на области за пределами своего рецептивного поля.

Разные сетевые архитектуры имеют разные рецептивные поля. Предполагая неглубокую архитектуру, сверточные нейронные сети (CNN) имеют меньшее рецептивное поле по сравнению с преобразователями, как показано на рис. 2. В CNN рецептивное поле постепенно увеличивается один слой за другим. Однако в преобразователях рецептивное поле охватывает все входные данные (маркеры) после одного слоя. Тем не менее, оценки этих рецептивных полей являются только теоретическими!

В CNN пиксели в центре рецептивного поля оказывают большое влияние на результат. При прямом проходе центральные пиксели могут передавать информацию на выход по многим различным путям, в то время как граничные пиксели имеют очень мало путей для распространения своих значений, как показано на рис. 3. Следовательно, при обратном проходе центральные пиксели имеют гораздо большая величина градиента от этого вывода. В этой статье [1] Luo et al. эмпирически оценить рецептивное поле в CNN и ввести термин эффективное рецептивное поле (ERF).

Луо и др.[1] показывают, что ERF следует распределению Гаусса и занимает лишь часть полного теоретического рецептивного поля (TRF). Чтобы оценить ERF, в статье вычисляется градиент выходной карты объектов относительно. заданный вход. Чтобы вычислить ERF, многомерная выходная карта объектов сводится к скаляру с использованием постоянной дельты Дирака, как показано на рис. 4. В основном, ERF вычисляется с использованием центрального пикселя в выходной карте объектов.

В то время как TRF зависит только от архитектуры, ERF dy/dx зависит от входных данных, т. е. разные входные данные генерируют разные ERF dy/dx. Таким образом, одного вычисления ERF недостаточно. Соответственно, Луо и др. [1] усреднить ERF по 20 запускам (входам). Первоначально в статье оценивается ERF с использованием случайно инициализированных сетей. Эти сети инициализируются либо равномерно (все), либо случайным образом. После инициализации эти сети фиксируются для вычисления средней ERF за 20 прогонов (входов).

На рис. 5 показаны идеальные гауссовы формы для равномерно и случайным образом инициализированных ядер свертки без нелинейных активаций. Кроме того, на рисунке показаны формы, близкие к гауссовым, для случайно взвешенных ядер с нелинейностью RELU. Добавление нелинейности ReLU делает распределение немного менее гауссовым. ReLU производит ровно ноль для половины своих входов, и легко получить нулевой результат. Это означает, что несколько путей от рецептивного поля достигают выхода.

На рис. 6 показана ERF для случайным образом инициализированных 20-слойных сетей. Эти три сети используют различные нелинейности: RELU, Tanh и Sigmoid. ERF усредняется по 100 прогонам (входным) с разными случайными весами, а также с разными случайными входными данными. На рис. 6 показана ERF, более похожая на гауссову.

В литературе по компьютерному зрению обычно используется субдискретизация для уменьшения разрешения признаков по мере увеличения глубины сети. В этой статье подчеркивается важность как субдискретизации, так и расширенных сверток для увеличения ERF. На рис. 7 показано, как субдискретизация и расширенная свертка значительно увеличивают ERF.

Рис. 8. оценивает рецептивное поле до и после обучения CNN. Эффективное рецептивное поле значительно увеличивается после тренировки. В эксперименте CIFAR (рис. 8 слева) теоретическое рецептивное поле составляет 74x74, т.е. больше входного изображения 32x32. Тем не менее, ERF по-прежнему не покрывает входное изображение.

Наконец, статья завершается неформальной связью между эффективным и теоретическим рецептивными полями. Бумага соответствует линии между количеством слоев (ось x) и отношением ERF (ось y). На рис. 9 показано, что отношение ERF (ERF/TRF) имеет наклон -0,43 в зависимости от количества слоев (ось x). Этот вывод является неофициальным, поскольку зависит от архитектуры. Несмотря на то, что всегда ожидается отрицательный наклон, значение наклона будет отличаться от одной архитектуры к другой.

Мои комментарии:

[S] Это хорошая статья, особенно важная для полей, обрабатывающих входные данные с высоким разрешением.
[S] В статье представлены впечатляющие количественные оценки.
[S] В статье была предпринята попытка предложить схему инициализации для увеличения рецептивного поля. Хотя эта схема ускоряет сходимость на 30%, авторы признают, что общее преимущество незначительно. Слава честным авторам :)
[W] Я нахожу математическую формулировку статьи сбивающей с толку. Идея статьи проста и могла бы быть изложена проще.
Чтобы увеличить восприимчивое поле CNN, в статье используются субдискретизация и расширение. Деформируемая свертка [2] — еще одна недавняя альтернатива увеличению ERF.
Я не знаю ни одной подобной статьи, в которой бы оценивалось эффективное рецептивное поле Трансформеров. Хотя один слой внимания может охватывать весь входной сигнал (токены), это только теоретически. Соответственно, статья, в которой количественно оцениваются рецептивные поля либо ванильных трансформеров, либо CvT, была бы интересной.

Ссылки:

[1] Луо, В., Ли, Ю., Уртасун, Р. и Земель, Р., 2016. Понимание эффективного рецептивного поля в глубоких сверточных нейронных сетях. Достижения в области нейронных систем обработки информации, 29.

[2] Дай Дж., Ци Х., Сюн Ю., Ли Ю., Чжан Г., Ху Х. и Вэй Ю., 2017. Деформируемые сверточные сети. В Материалы международной конференции IEEE по компьютерному зрению (стр. 764–773).

Понимание эффективного рецептивного поля в глубоких сверточных нейронных сетях

Вопросы по теме