Как обучить модель машинного обучения, если данные содержат конфиденциальную информацию?

Для решения проблемы или достижения желаемых бизнес-мотивов с помощью машинного обучения и глубокого обучения данные - это главное, но проблема начинается, когда базовые данные содержат личную информацию, и для любого исследователя или специалиста по данным становится головной болью обучать модель или публиковать статистические данные. выводы, так что личная жизнь никоим образом не наносит вреда.

Чтобы решить эту проблему, на помощь приходит дифференциальная конфиденциальность. Эта концепция была представлена Синтией Дворк в 2006 году, и с тех пор в этой области проводится множество исследований. Итак, теперь давайте обсудим внутреннюю работу дифференциальной конфиденциальности и узнаем, как Google, Apple и т. д. используют ее для обучения своих моделей ML / DL.

выше дано формальное определение дифференцированной конфиденциальности, не волнуйтесь, если вы не понимаете. (Бывает у большинства людей)

Механизм K (рандомизированная функция), удовлетворяющий этому определению, устраняет опасения, которые может возникнуть у любого участника по поводу утечки его личной информации: даже если участник удалил свои данные из набора данных, никакие выходы (и, следовательно, последствия выходов) не стали бы значительно более или менее вероятно. Например, если страховая компания должна была проконсультироваться с базой данных перед принятием решения о страховании данного лица, то наличие или отсутствие данных этого лица в базе данных не повлияет существенно на его шансы на получение страхового покрытия.

Идея проста, распределение результатов функции запроса не сильно отличается, независимо от того, присутствуют ли ваши данные в Data-set или нет.

Таким образом, возникает вопрос, как мне применить эту концепцию дифференциальной конфиденциальности во время обучения моей модели, чтобы она не многое узнавала о данных отдельных лиц, но также хорошо обобщалась во время вывода. Ответ заключается в том, что мы будем возмущать градиент весов с помощью гауссовского шума во время обучения, а возмущение контролируется значением эпсилон.

«Gt» - это градиент функции потерь, и градиент также ограничен буквой «L». Здесь вы можете контролировать шум, добавляемый к градиенту, при обновлении весов с помощью значения эпсилон.

Я попытался представить себе дифференциальную конфиденциальность с высоты птичьего полета, но если вы действительно хотите углубиться, вы можете начать с статьи Cythia Dwork 2006. [Алгоритмические основы дифференциальной конфиденциальности Синтии Дворк и Аарон Рот. Основы и направления теоретической информатики. Vol. 9, вып. 3-4, стр. 211-407, август 2014 г. doi: 10.1561 / 0400000042]

Реальные развертывания

На сегодняшний день известно несколько практических применений дифференциальной конфиденциальности:

2008: США Бюро переписи населения для демонстрации схемы поездок на работу.
2014: RAPPOR Google для телеметрии, такой как изучение статистики о нежелательном программном обеспечении, захватывающем настройки пользователей (реализация RAPPOR с открытым исходным кодом).
2015: Google за обмен исторической статистикой трафика.
2016: Apple объявила о намерении использовать дифференциальную конфиденциальность в iOS 10 для улучшения своей технологии Интеллектуальный персональный помощник.
2017: Microsoft для телеметрии в Windows.
2019: Privitar Lens - это API, использующий дифференциальную конфиденциальность.
2020: LinkedIn, по запросам рекламодателей.

Как обучить модель машинного обучения, если данные содержат конфиденциальную информацию?

Реальные развертывания

Вопросы по теме