Бумага: Является ли надежность платой за точность? - Всестороннее исследование надежности 18 моделей классификации глубоких изображений.
Архив: https://arxiv.org/abs/1808.01688
Подводя итог, я считаю, что эту статью ОБЯЗАТЕЛЬНО ПРОЧИТАЙТЕ, если вы хотите понять, как оценивать надежность модели и исследовать компромисс между надежностью и точностью. Эта статья является хорошей отправной точкой для вашего дальнейшего изучения в этой области.
Смысл
Демистифицируйте компромисс между надежностью и точностью с помощью обширных экспериментов на 18 моделях ImageNet.
Модели на рассмотрении
Эти 18 моделей глубокой классификации изображений можно разделить на 7 архитектурных семейств, как показано ниже.
- AlexNet:относительно простая сеть, состоящая из 5 сверточных слоев, за которыми следуют два полносвязных слоя и выходной слой softmax.
- VGG Nets: общая архитектура VGG Nets похожа на AlexNet, но намного глубже с большим количеством сверточных слоев. Еще одно различие между VGG Nets и AlexNet заключается в размере ядра, где все VGG Nets используют маленькое ядро (3x3), в то время как первые два уровня AlexNet используют ядра 11x11 и 5x5 соответственно.
- Начальные сети: семейство начальных сетей использует начальные модули, которые действуют как многоуровневые средства извлечения признаков. В частности, каждый начальный модуль состоит из нескольких ветвей фильтров 1x1, 3x3 и 5x5, выходные данные которых будут складываться по размеру канала и передаваться на следующий уровень в сети.
- ResNets: при добавлении путей с пропуском уровня (или соединений с ярлыками идентификации) каждый уровень в ResNets изучает остаточные функции со ссылкой на вход. Эта архитектура позволяет нам обучать очень глубокие нейронные сети.
- DenseNets: для дальнейшего использования метода соединений с ярлыками идентификации из ResNets, DenseNets соединяет все слои друг с другом в плотном блоке. Авторы утверждают, что это будет способствовать повторному использованию функций и сокращению количества параметров.
- MobileNets. MobileNets — это семейство легких и эффективных моделей, адаптированных для мобильных устройств. Основным компонентом являются фильтры, разделяемые по глубине, с факторизованными свертками. Разделяемые фильтры могут разложить стандартную свертку на две части: свертку по глубине и точечную свертку 1x1, что может сократить объем вычислений и размер модели.
- NASNets: NASNets — это семейство сетей, автоматически созданных путем обучения с подкреплением с использованием алгоритма градиента политик для оптимизации архитектур.
Подход к оценке и метрика
В этом исследовании используется несколько атак: (i) метод быстрого градиентного знака FGSM, (ii) I-FGSM, итеративный FGSM, (iii) атака C&W и (iv) EAD-L1.
Более того, CLEVER, кросс-липшицевое экстремальное значение для устойчивости сети) использует теорию экстремальных значений для оценки нижней границы минимального враждебного искажения. CLEVER не зависит от атак и отражает внутреннюю надежность сети.
Метрики включают:
- Вероятность успеха атаки: выше => более слабая надежность
- Искажение: выше => большая устойчивость
- УМНЫЙ: выше => большая надежность
- Переносимость: выше => более сильная переносимость
Ключевые результаты
Надежность
- Архитектура модели является более важным фактором, чем размер модели.
- Метрика искажения масштабируется линейно с логарифмом ошибки классификации. Это соотношение: искажение = a+b*log(ошибка классификации).
- Следуя тенденции, если мы наивно будем следовать модели с низкой ошибкой тестирования, надежность модели может пострадать.
- Глубже → Более надежный: в рамках одного семейства, такого как DenseNets, ResNets и Inception Nets, модели с более глубокой архитектурой дают небольшое улучшение надежности с точки зрения метрики искажения Linf.
Переносимость
- Переносимость атак: FGSM › I-FGSM › EAD-L1 › C&W.
- Для I-FGSM меньшее количество итераций обеспечивает лучшую переносимость.
- Для EAD-L1 более высокое значение k (параметр достоверности) приводит к лучшей переносимости.
- Переносимость состязательных примеров асимметрична; например, враждебные примеры VGG 16 хорошо переносятся в Inception-v2, но враждебные примеры Inception-v2 плохо переносятся в VGG 16.
- Сети VGG обеспечивают значительно лучшую переносимость, чем другие модели, как в целевых, так и в нецелевых настройках, для всех методов атаки. Это можно объяснить простой сверточной природой сетей VGG, которая является основой всех других сетей.
- Самые последние сети имеют некоторые уникальные особенности, которые могут ограничивать переносимость враждебных примеров только в пределах одного семейства. Например, переносимость между DenseNets и ResNets разной глубины близка к 100%, но скорость их передачи на другие архитектуры может быть намного хуже.
- Семейство наиболее переносимых моделей может варьироваться в зависимости от различных атак.