1. Об оценке состязательной устойчивости моделей семантической сегментации (arXiv)

Автор: Левенте Халмоси, Марк Джеласити.

Аннотация: Достижение устойчивости к входным возмущениям противника является важной и интригующей проблемой машинного обучения. В области семантической сегментации изображений был предложен ряд подходов к обучению противников в качестве защиты от возмущений противника, но методология оценки надежности моделей по сравнению с классификацией изображений все еще отсутствует. Здесь мы демонстрируем, что, как и при классификации изображений, важно оценивать модели по нескольким различным и жестким атакам. Мы предлагаем набор итерационных атак на основе градиента и показываем, что необходимо выполнять большое количество итераций. Мы также включаем атаки на внутренние представления моделей. Мы применяем два типа атак: максимизация ошибки при ограниченном возмущении и минимизация возмущения при заданном уровне ошибки. Используя этот набор атак, мы впервые показываем, что ряд моделей в предыдущей работе, которые считались надежными, на самом деле ненадежны. Затем мы оцениваем простые алгоритмы состязательного обучения, которые создают достаточно надежные модели даже при нашем наборе сильных атак. Наши результаты показывают, что ключевым проектным решением для достижения какой-либо надежности является использование только состязательных примеров во время обучения. Однако это приводит к компромиссу между надежностью и точностью.

2. Сертификация состязательной устойчивости для байесовских нейронных сетей (arXiv)

Автор: Мэтью Викер, Андреа Патане, Лука Лауренти, Марта Квятковска.

Аннотация: Мы изучаем проблему сертификации устойчивости байесовских нейронных сетей (БНС) к враждебным входным возмущениям. Учитывая компактный набор входных точек T ⊆ Rm и набор выходных точек S ⊆ Rn, мы определяем два понятия устойчивости для BNN в условиях состязательности: вероятностная надежность и надежность решения. Вероятностная надежность - это вероятность того, что для всех точек в T выход BNN, выбранный из апостериорной выборки, находится в S. С другой стороны, надежность решения рассматривает оптимальное решение BNN и проверяет, является ли для всех точек в T оптимальным решением BNN для данной функции потерь находится в выходном наборе S. Хотя точное вычисление этих свойств устойчивости является сложной задачей из-за вероятностной и невыпуклой природы BNN, мы представляем единую вычислительную основу для их эффективного и формального ограничения. Наш подход основан на выборке весовых интервалов, интегрировании и методах связанного распространения и может применяться к BNN с большим количеством параметров и независимо от (приблизительного) метода вывода, используемого для обучения BNN. Мы оцениваем эффективность наших методов в различных задачах регрессии и классификации, включая контрольный показатель промышленной регрессии, MNIST, распознавание дорожных знаков и предотвращение столкновений в воздухе, и демонстрируем, что наш подход позволяет сертифицировать надежность и неопределенность прогнозов BNN.