Робин Гейер, Мойн Наби и Тассило Кляйн (ML Research, Берлин)

В 2006 году крупный поставщик онлайн-услуг США выпустил большое количество журналов поиска своих пользователей для академических целей. И хотя имена пользователей не были идентифицированы, всего через два дня после публикации New York Times смогла отследить индивидуальный поисковый журнал до Тельмы А., тогда 62-летней женщины из Джорджии. Этот инцидент привел к отставке главного технического директора (CTO) компании.

Учитывая этот опыт, общедоступные наборы данных должны быть лучше отделены от личной отслеживаемой информации. Но что, если нет доверенной стороны, которая позаботится о такой очистке для обеспечения конфиденциальности?

Изучение закономерностей на основе частных данных, распределенных между несколькими сторонами, без необходимости в чрезмерно доверяемом кураторе - задача, которая в последние годы привлекла к себе много внимания. Примеры варьируются от серверов больниц с информацией о пациентах до мобильных телефонов / носимых устройств с личными данными, такими как изображения, сообщения или модели поведения. Различные сообщества используют различные подходы, пытающиеся решить возникающую проблему, связанную с желанием узнать как можно больше от толпы, без раскрытия информации от отдельного члена или привлечения слишком доверенной стороны. В этом сообщении дается краткий обзор трех из этих тенденций:

Безопасные многосторонние вычисления

Предположим, группа коллег хочет вычислить свою среднюю зарплату, не раскрывая индивидуальную зарплату. В этих типах проблем пригодится безопасное многостороннее вычисление (MPC).

В конце безопасного процесса MPC у каждого коллеги есть столько информации о других, сколько можно вывести через его / ее собственную зарплату и вычисленное среднее значение. Короче говоря, он или она будет знать, зарабатывают ли в среднем коллеги больше, чем он / она, но он или она не будет иметь больше информации об отдельном коллеге.

При предположении о максимальном количестве злоумышленников и сплетников во время вычислений безопасный MPC обеспечивает исключительную безопасность. Однако использование безопасного MPC с точки зрения более сложных вычислений, таких как обучение нейронной сети, очень ограничено. Затраты на вычисления и связь резко возрастают с ростом сложности вычисляемой функции (и количества сторон). Обучение даже простым моделям машинного обучения обходится чрезвычайно дорого с точки зрения коммуникации.

Федеративное обучение

Когда дело доходит до обучения модели на частных данных, одним из критических факторов является централизация данных. С одной стороны, процесс централизации может быть подорван. С другой стороны, может не быть стороны, которой достаточно доверяют для централизации данных. Возвращаясь к группе коллег, подсчитывающих свою среднюю зарплату: кому они все должны доверять? Перенося централизацию из пространства данных в пространство параметров, Федеративное обучение устраняет это узкое место: оно позволяет обучаться на основе данных без их централизации, перекладывая этапы оптимизации на серверы клиента, централизируя только изученные параметры вместо самих данных (что в большинстве случаев также снижает затраты на связь).

Однако клиенты, которые получают объединенную готовую модель, могут вывести меньше информации об исходных данных, чем центральная сторона, которая получила отдельные модели по отдельности и объединила их в готовую модель. Это несоответствие в информации делает процесс федеративного обучения небезопасным с точки зрения MPC.

Дифференциальная конфиденциальность

Давайте еще раз вспомним предыдущий пример средней заработной платы: получение только информации о средней зарплате кажется сохранением конфиденциальности, верно? Что ж, теперь представьте, что вы проверяете эту информацию до и после того, как работник приходит на работу или увольняется из компании, вместе с подсчетом сотрудников у вас будет точная информация о зарплате этого человека.

Дифференциальный частный метод обеспечивает анонимность каждого члена группы против такого рода поиска информации. Дифференциальный частный алгоритм, который обеспечивает оценку средней заработной платы всех сотрудников, должен давать примерно одинаковый результат вне зависимости от того, есть ли конкретный сотрудник в наборе данных или нет.

Ни безопасный MPC, ни настройка федеративного обучения не могут гарантировать дифференциальную конфиденциальность, поскольку отключение отдельной стороны или точки данных может повлиять на модель, так что конфиденциальная информация об этой стороне может быть выведена.

Машинное обучение в сфере безопасности и конфиденциальности в последние годы привлекло к себе много внимания, и в этом посте мы рассмотрели лишь несколько тенденций. Другие важные области исследований, связанные с безопасностью / конфиденциальностью, которые не обсуждаются в этом посте, включают состязательные атаки и справедливость алгоритмов, и это лишь некоторые из них.

В SAP Machine Learning Research команда исследователей и студентов решает широкий круг проблем, связанных с машинным обучением с точки зрения конфиденциальности. Мы стараемся найти безопасные и конфиденциальные способы обучения на больших объемах конфиденциальных, но, возможно, ценных данных.

Робин Гейер, магистр наук. Студент из ETH Zurich сосредоточит свое внимание на задачах, описанных в этом посте.