Мы наблюдаем повышенное внимание потребителей и политиков к повышению конфиденциальности, связанной со сбором и использованием данных. В 2018 году Общий регламент по защите данных (GDPR) вступил в силу в Европе и затронул предприятия, ведущие бизнес в Европейском союзе. GDPR требует от предприятий более внимательного отношения к сбору, хранению, использованию и передаче данных о клиентах. Кроме того, в США вступил в силу Закон штата Калифорния о защите прав потребителей (CCPA). Теперь с CCPA американские граждане имеют право требовать от предприятий раскрытия данных, которыми они обладают, и требовать их удаления.

Когда дело доходит до ИИ (машинное обучение и глубокое обучение), требуется достаточный объем данных, который часто включает личные данные для обучения моделей ИИ. Поскольку конфиденциальность и безопасность данных представляет собой растущую критическую проблему, учитывая вышеупомянутые новые области законодательства и политик, новые методологии машинного обучения, такие как федеративное обучение (FL), были разработаны частично для решения этих проблем.

В этой статье я подробно остановлюсь на аспектах конфиденциальности и безопасности федеративного обучения в качестве дополнения к моей предыдущей статье Что такое федеративное обучение.

Обзор безопасности и конфиденциальности федеративного обучения

Google представил идею федеративного обучения в 2017 году. Ключевым компонентом федеративного обучения является то, что оно позволяет специалистам по обработке данных обучать общие статистические модели на основе децентрализованных устройств или серверов с локальным набором данных. Это означает, что, хотя специалисты по обработке данных используют одну и ту же модель для обучения, нет необходимости загружать частные данные в облако или обмениваться данными с другими специалистами по данным или исследовательскими группами. По сравнению с традиционными централизованными методами машинного обучения, которые требуют, чтобы наборы данных размещались на одном сервере, федеративное обучение снижает проблемы безопасности и конфиденциальности данных за счет сохранения хранилищ локальных данных.

FL уделяет много внимания тому, как технология решает проблему защиты конфиденциальности пользователей путем разделения данных, предоставляемых на оборудовании конечного пользователя, и агрегирования моделей машинного обучения, таких как сетевые параметры глубокого обучения на централизованном сервере. Единственная цель FL состоит в том, чтобы совместно изучить глобальную модель, не жертвуя напрямую конфиденциальностью данных. В частности, FL имеет явные преимущества конфиденциальности по сравнению с обучением центра обработки данных на наборе данных. Даже хранение «анонимного» набора данных на сервере может поставить под угрозу конфиденциальность клиента из-за связи с другими наборами данных. Напротив, информация, передаваемая для FL, состоит из минимальных обновлений для повышения точности конкретной модели машинного обучения. Сами обновления могут быть эфемерными и никогда не будут содержать больше информации, чем необработанные данные обучения.

В качестве примера использования недавно NVIDIA представила FL на своей платформе для автономного вождения. Поскольку существуют разные географические ландшафты и потенциальные дорожные ситуации в разных регионах, OEM-производителям необходимо индивидуально обучать свои модели с использованием различных наборов данных о вождении. Пограничная платформа DGX компании сможет переобучать общие модели в каждом OEM-производителе с использованием локальных данных. Результаты локального обучения могут быть отправлены обратно на сервер FL по защищенному каналу для обновления общей модели.

Проблемы безопасности и конфиденциальности федеративного обучения

Существует ряд проблем и проблем, связанных с конфиденциальностью и безопасностью, связанных с использованием FL. Забота о конфиденциальности мотивирует желание хранить необработанные данные на каждом локальном устройстве в условиях распределенного машинного обучения. Но обмен другой информацией, такой как обновления модели, в рамках процесса обучения вызывает еще одну проблему, а именно возможность утечки конфиденциальной информации о пользователях. Например, можно извлечь конфиденциальные текстовые шаблоны, такие как номер кредитной карты, из повторяющейся нейронной сети (RNN), обученной на пользовательских данных.

Для поддержки машинного обучения, которое работает для сохранения конфиденциальности, было использовано несколько подходов, ведущих к FL:

  • Одним из методов является дифференциальная конфиденциальность, при котором рандомизированный механизм считается дифференциально закрытым, если изменение одного входного элемента приводит лишь к небольшой разнице в выходном распределении. Это означает, что нельзя делать какие-либо выводы о том, используется ли конкретная выборка в процессе обучения. Для методов обучения на основе градиента общий подход заключается в применении дифференциальной конфиденциальности путем случайного возмущения (например, с использованием гауссовского шума) промежуточного вывода на каждой итерации. Конечно, существует внутренний компромисс между использованием дифференциальной конфиденциальности и достижением высокого уровня точности модели, поскольку добавление большего количества шума приводит к большей конфиденциальности, но может снизить точность.
  • Другой метод защиты процесса обучения - это гомоморфное шифрование, при котором вычисления выполняются на зашифрованных данных.
  • Наконец, существует безопасное многостороннее вычисление (SMC), которое позволяет нескольким сторонам совместно вычислять согласованную функцию без утечки входной информации от какой-либо стороны, за исключением того, что может быть выведено из выходных данных.

Обратной стороной вышеупомянутых подходов является то, что они могут плохо масштабироваться для некоторых крупномасштабных развертываний машинного обучения, поскольку они несут значительные затраты на связь и вычисления.

FL делает еще один шаг вперед, создавая оригинальные проблемы конфиденциальности для распределенных алгоритмов машинного обучения. Цели решений по обеспечению конфиденциальности в FL заключаются в следующем: недорогие в вычислительном отношении, эффективные для связи и устойчивые к сбрасыванию устройств - все это без какого-либо значительного ущерба для точности.

С помощью FL конфиденциальность можно классифицировать двумя способами: глобальная конфиденциальность и локальная конфиденциальность. Глобальная конфиденциальность требует, чтобы обновления модели, генерируемые в каждом раунде, были частными для всех ненадежных третьих сторон, кроме центрального сервера. В то же время локальная конфиденциальность требует, чтобы обновления также были частными для сервера.

Текущая работа по безопасности и конфиденциальности для FL основывается на вышеупомянутых методах, таких как SMC и дифференциальная конфиденциальность, например протокол SMC для защиты обновлений отдельных моделей. Здесь центральный сервер не может видеть никаких локальных обновлений, но может видеть точные агрегированные результаты на каждом этапе. SMC - это метод без потерь, который может сохранять исходную точность с гарантией очень высокой конфиденциальности. Однако недостатком этого метода являются высокие дополнительные расходы на связь. Другой подход применяет дифференциальную конфиденциальность к FL и реализует глобальную дифференциальную конфиденциальность. Эти подходы включают в себя ряд гиперпараметров, которые влияют на коммуникацию и точность, и их следует выбирать тщательно.

В ситуациях, когда необходимы строгие гарантии конфиденциальности, используются новые методы, включающие введение упрощенной версии локальной конфиденциальности за счет ограничения возможностей потенциальных противников. Такой подход обеспечивает более строгие гарантии конфиденциальности, чем глобальная конфиденциальность, и приводит к лучшей производительности модели, чем строгая локальная конфиденциальность. Кроме того, дифференциальная конфиденциальность может быть объединена с методами сжатия модели для одновременного снижения затрат на связь и получения преимуществ конфиденциальности.

Будущие направления в области безопасности и конфиденциальности FL

FL - плодотворная область исследований в области машинного обучения. Исследователи упорно работают над дальнейшим развитием способности методологии удовлетворять потребности в конфиденциальности и безопасности. Например, описанная выше схема конфиденциальности охватывает конфиденциальность на локальном или глобальном уровне по отношению ко всем устройствам в сети. Однако на практике может потребоваться определение конфиденциальности на более детальном уровне в свете того факта, что ограничения конфиденциальности могут различаться для разных устройств или даже для разных точек данных на одном устройстве. Одно из предложений состоит в том, чтобы использовать гарантии конфиденциальности для конкретных образцов, а не для конкретных пользователей, тем самым обеспечивая более слабую форму конфиденциальности в обмен на более точные модели. Кажется, многообещающей является разработка методов обработки смешанных ограничений конфиденциальности для конкретных устройств или образцов.

В качестве еще одного примера будущих тенденций FL: включение параллельного обучения моделей глубокого обучения на распределенных наборах данных при сохранении конфиденциальности данных является сложной и сложной задачей. Одна группа исследователей разработала федеративную структуру обучения FEDF для сохранения конфиденциальности в сочетании с параллельным обучением. Структура позволяет изучать модель на нескольких географически распределенных наборах обучающих данных (которые могут принадлежать разным владельцам), не раскрывая при этом никакой информации о каждом наборе данных, а также промежуточных результатах.

Заключение

В этой статье мы рассмотрели безопасность и конфиденциальность в отношении федеративного обучения - важного нового метода, который набирает популярность в распределенном машинном обучении. Поскольку важность безопасности и конфиденциальности для моделей машинного обучения возрастает с появлением новых политик, таких как GDPR и CCPA, новые методологии, такие как федеративное обучение, открывают большие перспективы. Федеративное обучение способно решить многие важные проблемы, связанные с персоналом, путем обучения общих статистических моделей, основанных на децентрализованных устройствах или серверах с локальным набором данных.

Оригинальный пост здесь.

Прочтите больше статей по науке о данных на OpenDataScience.com, включая учебные пособия и руководства от новичка до продвинутого уровня! Подпишитесь на нашу еженедельную рассылку здесь и получайте последние новости каждый четверг.