Термины индекса: Машинное обучение, Федеративное обучение, Атаки на логические выводы, Бэкдор

Большие данные дают множество возможностей для развития науки за счет улучшения здравоохранения, содействия экономическому росту и реформирования системы образования. В последнее время глубокое обучение широко используется для изучения не обучающих функций из сложных данных и широко используется в распознавании изображений, извлечении функций, классификации и прогнозировании. Быстрый рост данных и сложных моделей, которые часто проявляются в большом количестве параметров модели, ни одна машина не может решать их достаточно быстро для множества важных задач машинного обучения. Влияние моделей глубокого обучения связано с размером модели и набором обучающих данных. В эпоху больших данных проблемы безопасности и конфиденциальности растут из-за доступности больших данных, сбор разнородных данных в настоящее время более удобен. Однако эти возможности сопряжены с некоторыми проблемами, связанными с безопасностью и конфиденциальностью данных. Проблемы связаны с отсутствием эффективных инструментов и подходов для защиты больших наборов данных, а также с утечкой информации во время обучения из-за атак, таких как атака с выводом о членстве.

Атаки, такие как атака логического вывода о членстве, анализируют данные, чтобы получить информацию о наборе данных. Набор данных содержит конфиденциальную информацию, которую можно считать утечкой, если злоумышленник может с высокой степенью достоверности вывести ее значение. Атака вывода происходит, когда пользователь может вывести из тривиальной информации более надежную информацию о базе данных, не обращаясь к ней напрямую. [2] Цель атак логического вывода состоит в том, чтобы собрать воедино информацию на одном уровне безопасности, чтобы определить факт, который должен быть защищен на более высоком уровне безопасности. В выводе о членстве он использует состязательное машинное обучение для атаки, чтобы обучить пользовательские модели вывода распознавать различия в прогнозах целевых моделей, используя входные данные, на которых он обучался, и сравнивают с входными данными, которые он не обучал.

[1] В недавних исследованиях авторы исследуют эту проблему в сценарии черного ящика, где злоумышленник может играть роль только в качестве входных данных для модели и получать выходные данные модели. Но иногда модель будет доступна противнику косвенно. Чтобы сделать его более понятным, приведем пример: разработчик приложения может использовать службу машинного обучения для построения модели из данных, собранных приложением, и сделать так, чтобы приложение выполняло вызовы API к полученной модели. Для этой конкретной проблемы злоумышленник будет подавать входные данные в приложение (а не напрямую в модель) и получать выходные данные приложения (которые основаны на выходных данных модели). Детали использования внутренней модели значительно различаются от приложения к приложению. Для простоты и общности предположим, что злоумышленник напрямую вводит входные данные и получает выходные данные из модели черного ящика. Ниже приведены шаги, необходимые для атак на основе вывода о членстве.

Во-первых, он проверяет наличие обучающих данных из модели, используя последовательный метод, из возможных входных данных или получает общедоступные или частные наборы данных, к которым у злоумышленника есть доступ. Затем злоумышленник строит ряд теневых моделей и настраивает их с высокой точностью и отзывом на образцах из обучающих наборов данных. После обучения проверьте разницу между выходными данными и входными данными, а затем оцените целевой API и проверьте, соответствует ли точка данных целевой модели или нет. Рис. 1 также иллюстрирует механизм теневых моделей.

В глубоком обучении есть два основных алгоритма обучения в зависимости от того, доступны ли данные серверно-ориентированным способом (т. е. автономное централизованное обучение) или распределены между несколькими сторонами, например, федеративное обучение. В обоих случаях злоумышленником может быть объект, который получает окончательную обученную модель. В дополнение к такой настройке атаки злоумышленник может увидеть обновленную версию модели после тонкой настройки, например, обычно используемой в глубоком обучении.

Методы федеративного обучения были развернуты крупными поставщиками услуг [4] и играют важную роль в поддержке приложений, чувствительных к конфиденциальности, в которых обучающие данные распространяются на периферии. Федеративное обучение является примером более общего подхода «приведение кода к данным, а не данных к коду» и решает фундаментальные проблемы конфиденциальности, владения и локальности данных. [4] Возможность машинного обучения из-за необходимости хранить данные в облаке. Это выходит за рамки использования локальных моделей, которые делают прогнозы на мобильных устройствах (таких как Mobile Vision API и интеллектуальный ответ на устройстве), также перенося обучение модели на устройство. В этом случае ключевая проблема заключается в том, чтобы изучить во время обучения единую глобальную модель, а данные не распределяются по устройствам, для решения такого рода проблем можно использовать метод FedAvg [5,6]. [7] Но во время агрегации атаки, аналогичные атакам логического вывода, могут быть проведены во время обучения путем замены вредоносным обновлением модели. Это делает федеративное обучение уязвимым для атаки с отравлением модели, которая значительно более влиятельна, чем атаки с отравлением, нацеленные только на обучающие данные.

(1) Непосредственно влияет на вес модели сустава.

(2) Тренироваться любым способом, который приносит пользу атаке, например, произвольно изменять веса своей локальной модели или включать уклонение от потенциальных средств защиты в свою функцию потерь во время обучения.

Ссылка:

[1]. Шокри, Реза и др. «Атаки на основе вывода о членстве против моделей машинного обучения». Симпозиум IEEE по безопасности и конфиденциальности (SP) 2017 г.. ИИЭР, 2017.

[2]. Обнаружение атак вывода с использованием правил ассоциации, Сангита Раман, 2001 г.»

[3] А. Ратнер и др. SysML: новый рубеж систем машинного обучения. Препринт arXiv arXiv: 1904.03257

[4] К. Бонавиц, Х. Эйхнер, В. Грискамп, Д. Хуба, А. Ингерман, В. Иванов, К. Киддон, Дж. Конечны, С. Маццокки, Х. Б. МакМахан, Т. В. Овервельдт, Д. Петру, Д. Рэймидж и Дж. Роузлендер. На пути к федеративному обучению в масштабе: проектирование системы. На конференции по системам и машинному обучению, 2019 г.

[5] К. Ван Беркель. Многоядерный для мобильных телефонов. На конференции по проектированию, автоматизации и тестированию в Европе, 2009 г. [16]. Л. Камм, «Статистический анализ с сохранением конфиденциальности с использованием безопасных многосторонних вычислений», доктор философии. диссертация, 2015.

[6] М. Хоекстра, Р. Лал, П. Паппачан, В. Фегаде и Дж. Дель Кувилло, «Использование инновационных инструкций для создания надежных программных решений». в HASP@ ISCA, 2013, с. 11.

[7] Багдасарян, Евгений и др. «Как заблокировать федеративное обучение». препринт arXiv arXiv:1807.00459 (2018 г.).

[8] С. Дж. Редди, Дж. Конечный, П. Рихтарик, Б. Почос и А. Смола. Помощник: Быстрая и эффективная коммуникационная распределенная оптимизация. Препринт arXiv arXiv: 1608.06879, 2016 г.