Бумага: Является ли надежность платой за точность? - Всестороннее исследование надежности 18 моделей классификации глубоких изображений.

Архив: https://arxiv.org/abs/1808.01688

Подводя итог, я считаю, что эту статью ОБЯЗАТЕЛЬНО ПРОЧИТАЙТЕ, если вы хотите понять, как оценивать надежность модели и исследовать компромисс между надежностью и точностью. Эта статья является хорошей отправной точкой для вашего дальнейшего изучения в этой области.

Смысл

Демистифицируйте компромисс между надежностью и точностью с помощью обширных экспериментов на 18 моделях ImageNet.

Модели на рассмотрении

Эти 18 моделей глубокой классификации изображений можно разделить на 7 архитектурных семейств, как показано ниже.

  • AlexNet:относительно простая сеть, состоящая из 5 сверточных слоев, за которыми следуют два полносвязных слоя и выходной слой softmax.
  • VGG Nets: общая архитектура VGG Nets похожа на AlexNet, но намного глубже с большим количеством сверточных слоев. Еще одно различие между VGG Nets и AlexNet заключается в размере ядра, где все VGG Nets используют маленькое ядро ​​(3x3), в то время как первые два уровня AlexNet используют ядра 11x11 и 5x5 соответственно.
  • Начальные сети: семейство начальных сетей использует начальные модули, которые действуют как многоуровневые средства извлечения признаков. В частности, каждый начальный модуль состоит из нескольких ветвей фильтров 1x1, 3x3 и 5x5, выходные данные которых будут складываться по размеру канала и передаваться на следующий уровень в сети.
  • ResNets: при добавлении путей с пропуском уровня (или соединений с ярлыками идентификации) каждый уровень в ResNets изучает остаточные функции со ссылкой на вход. Эта архитектура позволяет нам обучать очень глубокие нейронные сети.
  • DenseNets: для дальнейшего использования метода соединений с ярлыками идентификации из ResNets, DenseNets соединяет все слои друг с другом в плотном блоке. Авторы утверждают, что это будет способствовать повторному использованию функций и сокращению количества параметров.
  • MobileNets. MobileNets — это семейство легких и эффективных моделей, адаптированных для мобильных устройств. Основным компонентом являются фильтры, разделяемые по глубине, с факторизованными свертками. Разделяемые фильтры могут разложить стандартную свертку на две части: свертку по глубине и точечную свертку 1x1, что может сократить объем вычислений и размер модели.
  • NASNets: NASNets — это семейство сетей, автоматически созданных путем обучения с подкреплением с использованием алгоритма градиента политик для оптимизации архитектур.

Подход к оценке и метрика

В этом исследовании используется несколько атак: (i) метод быстрого градиентного знака FGSM, (ii) I-FGSM, итеративный FGSM, (iii) атака C&W и (iv) EAD-L1.

Более того, CLEVER, кросс-липшицевое экстремальное значение для устойчивости сети) использует теорию экстремальных значений для оценки нижней границы минимального враждебного искажения. CLEVER не зависит от атак и отражает внутреннюю надежность сети.

Метрики включают:

  • Вероятность успеха атаки: выше => более слабая надежность
  • Искажение: выше => большая устойчивость
  • УМНЫЙ: выше => большая надежность
  • Переносимость: выше => более сильная переносимость

Ключевые результаты

Надежность

  • Архитектура модели является более важным фактором, чем размер модели.
  • Метрика искажения масштабируется линейно с логарифмом ошибки классификации. Это соотношение: искажение = a+b*log(ошибка классификации).
  • Следуя тенденции, если мы наивно будем следовать модели с низкой ошибкой тестирования, надежность модели может пострадать.
  • Глубже → Более надежный: в рамках одного семейства, такого как DenseNets, ResNets и Inception Nets, модели с более глубокой архитектурой дают небольшое улучшение надежности с точки зрения метрики искажения Linf.

Переносимость

  • Переносимость атак: FGSM › I-FGSM › EAD-L1 › C&W.
  • Для I-FGSM меньшее количество итераций обеспечивает лучшую переносимость.
  • Для EAD-L1 более высокое значение k (параметр достоверности) приводит к лучшей переносимости.
  • Переносимость состязательных примеров асимметрична; например, враждебные примеры VGG 16 хорошо переносятся в Inception-v2, но враждебные примеры Inception-v2 плохо переносятся в VGG 16.
  • Сети VGG обеспечивают значительно лучшую переносимость, чем другие модели, как в целевых, так и в нецелевых настройках, для всех методов атаки. Это можно объяснить простой сверточной природой сетей VGG, которая является основой всех других сетей.
  • Самые последние сети имеют некоторые уникальные особенности, которые могут ограничивать переносимость враждебных примеров только в пределах одного семейства. Например, переносимость между DenseNets и ResNets разной глубины близка к 100%, но скорость их передачи на другие архитектуры может быть намного хуже.
  • Семейство наиболее переносимых моделей может варьироваться в зависимости от различных атак.