Атака на модели глубокого обучения

Компрометирующий ИИ ради развлечения и прибыли

Модели глубокого обучения показали очень многообещающие результаты в области компьютерного зрения и распознавания звука. В языковых моделях также были усовершенствованы задачи, которые считались недостижимыми всего несколько лет назад. Практически во всех сферах (здравоохранение, медицина, финансы, социальные сети, развлечения и т. Д.) Модели глубокого обучения предоставляют современные решения.

Пока системы, основанные на глубоком обучении, будут интегрированы в разрозненные области, они будут все больше и больше влиять на жизнь людей. Например, системы компьютерного зрения с глубоким обучением развертываются на автономных транспортных средствах, обеспечивают функциональность, лежащую в основе медицинских приложений для обработки изображений и банковских приложений, камер наблюдения и дронов, цифровых помощников и т. Д. Неисправность в любом из этих приложений повлияет на качество таких интегрированных систем и ставят под угрозу безопасность лиц, прямо или косвенно использующих их.

К сожалению, исследователи, и особенно сообщество пользователей глубокого обучения, не уделяют должного внимания способам атак и использования моделей глубокого обучения.

Один из вариантов использования, который, вероятно, заинтересует злоумышленников, связан с точной медициной и здравоохранением. Если интеллектуальные системы обеспечивают надзор, необходимый учреждениям, больницам и страховщикам, было бы разумно ожидать, что кто-то в конечном итоге воспользуется их потенциальной уязвимостью.

Фактически, современные системы искусственного интеллекта страдают от ряда нерешенных уязвимостей, которым не уделяется такого же внимания в плане повышения точности и производительности.

Легче утверждать, насколько мощна и точна модель машинного обучения, чем насколько она безопасна и надежна для взлома.

Основная причина такого надзора заключается в том, что существуют менее формальные способы определения атак и уязвимостей, чем определение моделей машинного обучения.

В истории было несколько случаев мошенничества в сфере медицины, которые нанесли ущерб учреждениям и правительствам многих стран на миллиарды долларов.
От учреждений, которые завышают стоимость услуг для увеличения своих доходов, до врачей, которые фальсифицируют диагноз, чтобы выставить счет за самое дорогое лечение, - существует множество уровней совершения мошенничества с медициной и здравоохранением.
Страховые компании также будут подвергнуться влиянию новой волны автоматической медицины. Страховщики скоро обратятся к интеллектуальному диагностическому инструменту (в основном классификатору машинного обучения), чтобы подтвердить, что определенному человеку действительно диагностировали определенное заболевание, и перейти к возмещению.

Несомненно, что в самом ближайшем будущем мы увидим все больше и больше интеллектуальных диагностических инструментов.

Вместе с алгоритмами, которые прогнозируют и подтверждают диагнозы для пациентов в массовом масштабе, такие модели машинного обучения фактически контролируют и формируют новый способ ведения клинической практики.

Страшно знать, что злонамеренный пациент может подделать медицинские изображения, позволяющие поставить диагноз болезни, которой она никогда не страдала. Еще страшнее знать, что это возможно с помощью готовых классификаторов глубокого обучения.

Атака на модели глубокого обучения

Вероятно, наиболее эффективными атаками на модели глубокого обучения являются отравляющие атаки и образцы состязательных атак.

Несмотря на техническую стратегию выполнения каждой из этих атак, конечная цель злоумышленника - заставить модель машинного обучения поверить в то, что у входных данных есть в основном неправильная метка.

Для простоты, если бы изображение кошки было помечено как кошка, шумная версия того же изображения была бы помечена как собака. Таким образом, это было бы результатом взлома классификатора машинного обучения.

Атаки с отравлением данных просто выполняются путем вмешательства в процесс обучения модели и введения данных, которые вызывают ошибки в модели глубокого обучения. Фактически, конечный пользователь любой модели машинного обучения, который имеет доступ только к параметрам модели, должен полностью доверять тому, что модель была обучена без вмешательства в процесс с использованием только подлинных наборов данных. Это обещание, конечно, трудно сдержать в большинстве моделей, которые обучаются в частном порядке и свободно используются людьми и приложениями.
Однако для успеха таких атак требуется доступ к процессу обучения. Немаловажное ограничение.

Примеры состязательных атак представляют собой второй класс атак, о котором мы упоминали, и наиболее изощренный. Этот тип атак заслуживает большего внимания из-за того, что злоумышленнику не требуется иметь доступ к процессу обучения или к обучающим данным.
Атаки состязательных образцов состоят в подделке образцов, что усложняет машинное обучение модель для присвоения метки с высокой степенью уверенности. Более того, очень вероятно, что модель неверно классифицирует многие образцы противоборства. В машинном обучении эта проблема обычно связана с проблемой границы решения.
Тривиальный пример представляет собой модель, которая может различать наблюдения двух разных классов с очень высокой степенью достоверности и с очень низким числом параметры. Прогнозирование наблюдений, которые невозможно легко разделить, намного сложнее и обычно требует более сложных и нелинейных моделей с большим количеством параметров. Такой сценарий изображен на рисунке 1.

Состязательные выборочные атаки имеют более высокий уровень успеха, когда модель жертвы не может легко разделить точки данных. Ссылаясь на границу принятия решения в простом классификаторе на рис. 1, всякий раз, когда возникает двусмысленность в присвоении красной или синей метки точке данных, у злоумышленников больше шансов ввести модель в заблуждение. Эта неопределенность в классификации возникает на границе между двумя (или более) классами.

В более общем плане, если медицинский классификатор изображений не может отличить родинку от рака кожи с высокой степенью уверенности, крошечное возмущение входного изображения может заставить модель поверить, что это рак, хотя на самом деле это просто родинка.

Именно так и работают состязательные выборочные атаки: при небольшом изменении входных данных прогноз, скорее всего, неверен. Разумеется, возмущение не является полностью случайным.

Входные данные должны быть искажены таким образом, чтобы они не воспринимались человеческим глазом в случае медицинского изображения. То же самое относится и к аудиовходам, которые будут искажены таким образом, чтобы человеческое ухо не воспринимало их как искаженные. Медицинские лабораторные тесты и другие числовые данные ничем не отличаются.

Вообще говоря, классификатор, который может работать с нелинейно разделяемыми наборами данных с высокой точностью и уверенностью, обычно более устойчив к злоумышленникам.

Тем не менее, существуют систематические способы искажения входных данных и принудительного отказа даже надежных моделей с высокой степенью уверенности. Одним из таких методов является метод быстрого градиентного знака (FGSM), который вычисляет состязательный пример как

x + ε sign (∇xL (θ, x, y))

где x - исходный вход, L (θ, x, y) - функция потерь, а ∇x - градиент по отношению к входу. Чтобы понять, что делает этот метод, мы должны сначала взглянуть на то, что происходит в обычной тренировочной процедуре.

Обучение - это проблема оптимизации. Это означает, что обучение модели эквивалентно поиску минимумов конкретной функции, называемой функцией потерь. Функция потерь представляет собой расстояние между предсказанным классом и истинным классом ряда выборок. Если такое расстояние равно нулю, модель будет точной на 100%, потому что все предсказанные метки точно такие же, как истинные метки. Во время обучения метод оптимизации, такой как стохастический градиентный спуск, находит лучший набор параметров, который минимизирует функцию потерь.

Следовательно, в стандартной задаче классификации с обучающим набором данных D, представленным парами примеров x ∈ R [d] и классов y ∈ [k], мы определяем функцию потерь как L (θ, x, y). Очевидно, что θ ∈ R [p] - множество параметров модели.

В Tensorflow / Keras / Pytorch специалисты по данным обычно выполняют стохастический градиентный спуск (SGD), чтобы найти параметры модели θ, которые минимизируют вышеупомянутую функцию потерь L (θ, x, y).

Одна из стратегий обучения нейронных сетей, устойчивых к атакам со стороны враждебных выборок, - это включение таких выборок во время обучения. С помощью наивных решений оказывается, что модели просто переоснащаются для таких образцов и не обобщают. Более продвинутые процедуры обучения (основанные на оптимизации прогнозируемого градиентного спуска (PGD), похоже, уменьшают переоснащение и создают более надежные модели.

Возможные защиты

Безопасность моделей глубокого обучения - определенно новая область и открытая проблема, которая на некоторое время будет занимать исследователей. На сегодняшний день нет решения в краткосрочной перспективе, как и в долгосрочной перспективе. Многие из предложенных мер по снижению рисков относятся к архитектуре модели и не распространяются на все возможные топологии сети.

Простое средство защиты от злоумышленников, которые изменяют входные данные, заключается в предоставлении прогнозов только для аутентифицированных и сертифицированных данных. Например, злоумышленник, который манипулировал медицинским изображением ее родинки, чтобы обмануть модель для прогнозирования рака кожи, будет остановлен, если модель будет принимать только сертифицированные данные (данные с тегом MAC, созданные аутентифицированным учреждением или медицинским устройством). Перед выполнением прогноза модель будет проверять, что MAC, прикрепленный к входному изображению, соответствует исходному контенту и не подвергался манипуляциям.

Хотя можно предотвратить вмешательство злоумышленников во входные образцы, нет четкого способа предотвратить вмешательство во весь процесс обучения модели.

Это атака, которую каждый, кто обучает модель, может выполнить во время тренировки. Мы упомянули этот тип атаки как атаку отравления данных. Такое ограничение еще более заметно при машинном обучении, выполняемом на частных данных, где нет абсолютно никакого контроля над объемом и качеством данных, используемых во время обучения.

Эффективное смягчение последствий атак с отравлением данных, очевидно, принимает во внимание данные, которые используются для обучения модели.

Методика, разработанная в fitchain, заключается в хранении следов модели обучения в публичном неизменяемом реестре. Это не только дает сертификат о том, что модель действительно обучена. Он также предоставляет криптографическое доказательство набора данных, используемого для обучения модели. Такое доказательство легко проверить, не раскрывая необработанного содержания данных.
Фактически, каждая модель машинного обучения, которая обучается в частном порядке и бесплатно распространяется для всех, требует удостоверения личности и сертификата. Приложения и частные лица никогда не должны использовать интеллектуальное программное обеспечение без сертификата.

В fitchain мы внедрили технологию, которая обеспечивает сертификацию моделей машинного обучения с этапа обучения. Криптографические хэши обучающих наборов данных - лишь одна из таких сертификаций.
Более сложный и эффективный метод предоставления сертификатов улучшенных моделей основан на тщательно подобранных наборах данных. Наборы обучающих данных, которые были отобраны экспертами в предметной области с высокой репутацией, могут предоставить более надежные типовые сертификаты. Это, в свою очередь, позволяет специалистам по обработке данных создавать модели, более устойчивые к атакам.

Подключение платформы, такой как fitchain, к тщательно подобранной торговой площадке данных, такой как oceanprotocol, - это не просто способ, но и правильный путь к сертификации и безопасное машинное обучение.

Атака на модели глубокого обучения

Компрометирующий ИИ ради развлечения и прибыли

Атака на модели глубокого обучения

Возможные защиты

Вопросы по теме