Враждебные примеры и функция шумоподавления

Возьмем, к примеру, распознавание лиц. Легитимные входные данные представляют собой состязательный пример, сгенерированный состязательной атакой. Как мы видим, состязательный пример почти идентичен исходному законному вводу. Следовательно, человек отнес бы его к тому же классу. Однако модель распознавания лиц чувствительна к минимальным различиям между состязательным примером и исходным допустимым вводом. Он классифицирует враждебный пример к классу, отличному от исходного класса, что не имеет смысла для человека.

Левое изображение — это реальный знак остановки с граффити. Правое изображение — это сгенерированный состязательный пример, имитирующий граффити. Эти черно-белые пятна кажутся безобидными граффити для человека. Однако эти возмущения могут ввести в заблуждение модель распознавания изображений, развернутую на беспилотных автомобилях.

Если мы посмотрим на карту характеристик исходного входного изображения, то обнаружим, что оно имеет высокую активацию цифр цифровых часов. Это связано с человеческой интуицией, поскольку истинное название этого изображения — «цифровые часы». Если мы сравним карту признаков состязательного примера, мы обнаружим, что карта признаков состязательного примера имеет больше шума на заднем плане.

Следовательно, один из способов защиты от враждебных примеров — это шумоподавление представления признаков в нейронной сети. Если мы сможем устранить возмущения, вызванные враждебными примерами, мы сможем повысить устойчивость нейронной сети к враждебным действиям.

Враждебные примеры и функция шумоподавления

Вопросы по теме