Обзор: WRN - широкие остаточные сети (классификация изображений)

На этот раз представлены WRN (широкие остаточные сети). Путем расширения остаточной сети (ResNet) сеть может быть более мелкой с той же точностью или повышенной точностью. Более мелкая сеть означает:

Количество слоев можно уменьшить.
Время обучения также может быть короче.

Также исследуется более высокий уровень отсева. Это статья BMVC за 2016 год с более чем 700 цитированием. Хотя это статья 2016 года, они продолжали обновлять ее и в июне 2017 года. (Sik-Ho Tsang @ Medium)

Что покрывается

Проблемы в остаточной сети (ResNet)
WRN (широкие остаточные сети)
Результаты

1. Проблемы в остаточной сети (ResNet)

1.1. Теория сложности схем

Литература по теории сложности схем, показывающая, что:

мелкие схемы могут потребовать экспоненциально больше компонентов, чем более глубокие схемы.

Авторы остаточных сетей постарались сделать их как можно более тонкими в пользу увеличения их глубины и уменьшения параметров и даже ввели блок «узкого места», который делает блоки ResNet еще тоньше.

1.2. Уменьшение повторного использования функций

Однако, поскольку градиент течет по сети, нет ничего, что могло бы заставить его пройти через остаточные веса блоков, и он может избежать обучения чему-либо во время обучения, поэтому возможно, что есть либо только несколько блоков, которые изучают полезные представления или многие блоки передают очень мало информации с небольшим вкладом в конечную цель. Эта проблема была сформулирована как уменьшение повторного использования функции.

2. WRN (широкие остаточные сети)

В WRN проверяется множество параметров, таких как конструкция блока ResNet, насколько глубоко (коэффициент углубления l) и насколько широким (коэффициент расширения k) внутри блока ResNet. .

Когда k = 1, он имеет ту же ширину, что и ResNet. Хотя k ›1, это в k раз шире, чем ResNet .

WRN- d - k: означает, что WRN имеет глубину d и коэффициент расширения k .

Pre-Activation ResNet используется в наборах данных CIFAR-10, CIFAR-100 и SVHN. Оригинальный ResNet используется в наборе данных ImageNet.
Основное отличие состоит в том, что Pre-Activation ResNet имеет структуру выполнения пакетной нормы и ReLU перед сверткой (то есть BN-ReLU-Conv), в то время как исходный ResNet имеет структура Conv-BN-ReLU. И Pre-Activation ResNet, как правило, лучше, чем исходный, но у него нет очевидных улучшений в ImageNet, когда количество слоев только около 100.

2.1. Конструкция блока ResNet

B (3; 3): исходный «базовый» блок на первом рисунке (а)
B (3; 1; 3): с одним дополнительным слоем 1 × 1 между двумя слоями 3 × 3.
B (1; 3; 1): с той же размерностью, что и все свертки, «выпрямленное» узкое место
B (1; 3): сеть имеет чередующиеся свертки 1 × 1, 3 × 3.
B (3; 1): сеть имеет чередующиеся свертки 3 × 3, 1 × 1.
B (3; 1; 1): блок в стиле "сеть в сети".

B (3; 3) имеет наименьший коэффициент ошибок (5,73%).

Примечание: количество глубин (слоев) отличается, чтобы количество параметров было близко друг к другу.

2.2. Количество сверточных слоев в блоке ResNet

И две свертки 3 × 3, то есть B (3,3) имеет наименьшую частоту ошибок, чем другие. Поскольку все сети должны иметь одинаковые параметры, B (3,3,3) и B (3,3,3,3), оказывается, имеют меньше пропускаемых подключений. , что снижает точность. И B (3) имеет только одну свертку 3 × 3, что делает извлечение признаков неэффективным в такой неглубокой сети в блоке ResNet.

Таким образом, B (3,3) является оптимальным и будет использоваться в следующих экспериментах.

2.3. Ширина блоков ResNet

Во всех сетях с 40, 22 и 16 слоями наблюдается постоянный выигрыш при увеличении ширины от 1 до 12 раз.
С другой стороны, при неизменном фиксированном коэффициенте расширения k = 8 или k = 10 и изменении глубины от 16 до 28 наблюдается постоянное улучшение, однако при дальнейшем увеличении глубины до 40 точность уменьшается.
На основании результатов, приведенных выше, были выбраны три набора WRN для сравнения с современными подходами.

3. Результаты

3.1. CIFAR-10 и CIFAR-100

WRN-40–4: меньше параметров (8,9M), чем 1001-слойный Pre-Activation ResNet (10,2M). Но он также получил меньшее количество ошибок. (4,52% по CIFAR-10 и 21,18% по CIFAR-100)
WRN-16-8 и WRN-28-10: меньше и шире, чем WRN-40–4, и имеет еще меньшую частоту ошибок. С более мелкой сетью время обучения может быть меньше, поскольку параллельные вычисления выполняются на графических процессорах независимо от их ширины.
И это первая статья, получившая уровень ниже 20% для CIFAR-100 без какого-либо существенного увеличения данных !!!

3.2. Выбывать

Вверху: при исключении достигается постоянное усиление для разных глубин, k и наборов данных.
Внизу справа: при отсеве потери при обучении выше, но ошибка теста ниже, что означает, что отсев успешно снижает переобучение.

3.3. ImageNet и COCO

Вышеупомянутые сети имеют аналогичную точность, чем исходная, с в 2 раза меньшим количеством слоев.

WRN-50–2-Bottleneck: превосходит ResNet-152 и имеет в 3 раза меньше слоев, что означает, что время обучения значительно сокращается.
WRN-34–2: превосходит модели на базе ResNet-152 и Inception-v4.

3.4. Тренировочное время

WRN-16–10 и WRN-28–10: время обучения намного меньше, чем у 1004-слойной Pre-Activation ResNet, и имеет меньшую частоту ошибок.
WRN-40–4: время обучения ниже, чем у 164-слойной Pre-Activation ResNet, и имеет меньшую частоту ошибок.

Поскольку тренировка занимает много времени, она может занять несколько дней или даже недель. Когда набор тренировок становится все больше и больше, нужен лучший способ тренировок. Действительно, в недавнем исследовании многие исследователи все еще сосредотачиваются на том, как сократить время обучения или количество периодов обучения.

В WRN это сокращает время обучения, но за счет увеличения количества параметров из-за расширения сети.

использованная литература

[BMVC, 2016] [WRN]
Широкие остаточные сети

Мои связанные обзоры по классификации изображений

[LeNet] [AlexNet] [ZFNet] [VGGNet] [SPPNet] [PReLU-Net] [GoogLeNet / Inception-v1] [BN-Inception / Inception-v2 ] [ Inception-v3 ] [ Inception-v4 ] [ Xception ] [ MobileNetV1 ] [ ResNet ] [ Pre-Activation ResNet ] [ RiR ] [ Stochastic Depth ] [DenseNet]