Возврат: является ли надежность платой за точность?

Бумага: Является ли надежность платой за точность? - Всестороннее исследование надежности 18 моделей классификации глубоких изображений.

Архив: https://arxiv.org/abs/1808.01688

Подводя итог, я считаю, что эту статью ОБЯЗАТЕЛЬНО ПРОЧИТАЙТЕ, если вы хотите понять, как оценивать надежность модели и исследовать компромисс между надежностью и точностью. Эта статья является хорошей отправной точкой для вашего дальнейшего изучения в этой области.

Смысл

Демистифицируйте компромисс между надежностью и точностью с помощью обширных экспериментов на 18 моделях ImageNet.

Модели на рассмотрении

Эти 18 моделей глубокой классификации изображений можно разделить на 7 архитектурных семейств, как показано ниже.

AlexNet:относительно простая сеть, состоящая из 5 сверточных слоев, за которыми следуют два полносвязных слоя и выходной слой softmax.
VGG Nets: общая архитектура VGG Nets похожа на AlexNet, но намного глубже с большим количеством сверточных слоев. Еще одно различие между VGG Nets и AlexNet заключается в размере ядра, где все VGG Nets используют маленькое ядро (3x3), в то время как первые два уровня AlexNet используют ядра 11x11 и 5x5 соответственно.
Начальные сети: семейство начальных сетей использует начальные модули, которые действуют как многоуровневые средства извлечения признаков. В частности, каждый начальный модуль состоит из нескольких ветвей фильтров 1x1, 3x3 и 5x5, выходные данные которых будут складываться по размеру канала и передаваться на следующий уровень в сети.
ResNets: при добавлении путей с пропуском уровня (или соединений с ярлыками идентификации) каждый уровень в ResNets изучает остаточные функции со ссылкой на вход. Эта архитектура позволяет нам обучать очень глубокие нейронные сети.
DenseNets: для дальнейшего использования метода соединений с ярлыками идентификации из ResNets, DenseNets соединяет все слои друг с другом в плотном блоке. Авторы утверждают, что это будет способствовать повторному использованию функций и сокращению количества параметров.
MobileNets. MobileNets — это семейство легких и эффективных моделей, адаптированных для мобильных устройств. Основным компонентом являются фильтры, разделяемые по глубине, с факторизованными свертками. Разделяемые фильтры могут разложить стандартную свертку на две части: свертку по глубине и точечную свертку 1x1, что может сократить объем вычислений и размер модели.
NASNets: NASNets — это семейство сетей, автоматически созданных путем обучения с подкреплением с использованием алгоритма градиента политик для оптимизации архитектур.

Подход к оценке и метрика

В этом исследовании используется несколько атак: (i) метод быстрого градиентного знака FGSM, (ii) I-FGSM, итеративный FGSM, (iii) атака C&W и (iv) EAD-L1.

Более того, CLEVER, кросс-липшицевое экстремальное значение для устойчивости сети) использует теорию экстремальных значений для оценки нижней границы минимального враждебного искажения. CLEVER не зависит от атак и отражает внутреннюю надежность сети.

Метрики включают:

Вероятность успеха атаки: выше => более слабая надежность
Искажение: выше => большая устойчивость
УМНЫЙ: выше => большая надежность
Переносимость: выше => более сильная переносимость

Ключевые результаты

Надежность

Архитектура модели является более важным фактором, чем размер модели.
Метрика искажения масштабируется линейно с логарифмом ошибки классификации. Это соотношение: искажение = a+b*log(ошибка классификации).
Следуя тенденции, если мы наивно будем следовать модели с низкой ошибкой тестирования, надежность модели может пострадать.
Глубже → Более надежный: в рамках одного семейства, такого как DenseNets, ResNets и Inception Nets, модели с более глубокой архитектурой дают небольшое улучшение надежности с точки зрения метрики искажения Linf.

Переносимость

Переносимость атак: FGSM › I-FGSM › EAD-L1 › C&W.
Для I-FGSM меньшее количество итераций обеспечивает лучшую переносимость.
Для EAD-L1 более высокое значение k (параметр достоверности) приводит к лучшей переносимости.
Переносимость состязательных примеров асимметрична; например, враждебные примеры VGG 16 хорошо переносятся в Inception-v2, но враждебные примеры Inception-v2 плохо переносятся в VGG 16.
Сети VGG обеспечивают значительно лучшую переносимость, чем другие модели, как в целевых, так и в нецелевых настройках, для всех методов атаки. Это можно объяснить простой сверточной природой сетей VGG, которая является основой всех других сетей.
Самые последние сети имеют некоторые уникальные особенности, которые могут ограничивать переносимость враждебных примеров только в пределах одного семейства. Например, переносимость между DenseNets и ResNets разной глубины близка к 100%, но скорость их передачи на другие архитектуры может быть намного хуже.
Семейство наиболее переносимых моделей может варьироваться в зависимости от различных атак.