Конфиденциальность и безопасность машинного обучения сильно отличаются от конфиденциальности и безопасности с использованием машинного обучения, и в следующем блоге делается попытка пролить свет на перекрывающиеся и непересекающиеся компоненты машинного обучения.
В статье не будет подробно объясняться каждый аспект машинного обучения. темы, а скорее указать направление для читателей, чтобы они поняли и увидели, как ML можно использовать для конфиденциальности и безопасности, имея при этом свои собственные предубеждения и недостатки.

В чем разница между конфиденциальностью и безопасностью? Для контекста статьи я хотел бы взять игрушечный пример и попытаться дать представление о том, что означают эти слова.
У вас есть секретный документ, в котором содержится ваша конфиденциальная информация, и вы не хотите, чтобы злоумышленник имел доступ к этому документу, вы безопасно помещаете его в небольшой шкафчик с паролем. Если субъект угрозы может взломать и получить доступ к вашему документу, существует брешь в системе безопасности. Если к документу обращаются дальше и действующее лицо может понять, что написано внутри, это становится проблемой конфиденциальности. Что, если информация в документе была тарабарщиной или на языке, отличном от того, что понимает действующее лицо…
Безопасность и конфиденциальность, как вы уже могли себе представить, также имеют разные подходы к защите. Меры безопасности включают ограниченное выделение ресурсов и другие традиционные подходы, где в качестве конфиденциальности используется шифрование и т. д.

Конфиденциальность и безопасность с использованием машинного обучения:

Это более распространенная и коммерческая версия машинного обучения, которая в первую очередь включает использование алгоритмов машинного обучения и моделей обучения для использования автоматизации в качестве инструмента для обеспечения безопасности конечных точек. Существуют различные примеры, которые можно рассмотреть, когда ML используется для обнаружения атак. Мы можем использовать алгоритмы ML, такие как наивный байес, чтобы различать законную электронную почту и спам-письмо, которое отображается в папке для спама, мы используем различные IDS и IPS. которые основаны на методах ML, и цель здесь состоит в том, чтобы идентифицировать обычное соединение от вредоносного соединения, эти соединения могут вызвать класс других атак безопасности, таких как Ddos, ботнеты для дальнейшей эскалации, атаки пользователя на root и root на пользователя и т. д.

Помимо этого, в соответствии с различными стандартами регулирования и соответствия, которые требуют от нас мониторинга пакетов данных, анализа журналов и сегментации сети, этого можно достичь с использованием методов ML по сравнению с традиционными подходами.

Конфиденциальность и безопасность машинного обучения:

Именно здесь в последнее время было вложено много средств, усилий и исследований. Аспект конфиденциальности и безопасности машинного обучения касается проблем, возникающих, когда мы используем алгоритмы машинного обучения, чтобы иметь гарантии конфиденциальности и безопасности. Учебные данные, на которых обучаются модели, носят конфиденциальный характер, существуют правила соответствия для MLaaS и других облачных и автономных поставщиков о том, как убедиться, что обучающие данные не пропускают конфиденциальную информацию, даже когда запросы обрабатываются через API. Однако в последние годы были проведены различные исследования, в частности Яна Гудфеллоу и др., которые показали, что «Состязательный МО» может по существу извлекать и восстанавливать почти все обучающие данные. Это касается не только конфиденциальности: доступ к обучающим данным также означает, что теперь мы можем имитировать поведение модели и ожидаемый результат. Например Наборы данных FMNIST и MNIST были подвержены таким атакам. Панда может быть классифицирована как гиббон ​​с большей уверенностью, чем классификация как панда, по сути, это было началом целого ряда методов атаки ML, вы можете отравить обучающие данные со временем, а тестовые данные всегда будут давать неверные результаты. Эти атаки также были распространены на беспилотные автомобили, где у противника были возмущения над знаком «СТОП» и, по сути, подделка системы. У нас также были атаки с кражей моделей, когда через API-запрос все модели машинного обучения были реплицированы в автономном режиме от поставщика MLaaS, а структура оплаты по запросу была нарушена. Это также приводит к корпоративному шпионажу, когда на обучение моделей уходят часы и деньги.

Состязательный ML строится на идее, что функции потерь, построенные с определенными ограничениями по градиенту на статистическом расстоянии, могут сходиться таким образом, что система будет подделана.

Различные защитные меры, такие как дифференцированная конфиденциальность, федеративное обучение, P.A.T.E, развивались, но это всегда будет игра в кошки-мышки между злоумышленниками и хорошими парнями.

Для состязательных методов и подробного объяснения я бы продолжил пример Fmnist и блокнот в блоге futrue, статья здесь похожа на вводную статью, чтобы дать читателю понять последствия развертывания системы ML и то, как мы должны быть осторожны и дотошны в нашем подходе. .
Также возникает проблема справедливости в алгоритмическом принятии решений, когда мы развертываем такие системы ML с присущей им предвзятостью. В следующем блоге я напишу о справедливости и системах ML.

Исследовательские работы, статьи, блоги, на основе которых была написана эта статья, можно найти здесь:

1- http://www.cleverhans.io/

2- https://www.youtube.com/watch?v=Zd9kYgUjgSU

3- https://adversarial-ml-tutorial.org/adversarial_training/

4- https://www.youtube.com/watch?v=Af9WM5WUChg

Вот некоторые из моих личных фаворитов:

1- https://arxiv.org/abs/1609.02943 — кража модели через API

2- https://arxiv.org/abs/1412.6572