Федеративное обучение — обзор проблемы, вызовов и возможностей

Большинству алгоритмов машинного обучения нужны данные, и чем больше данных мы снабжаем наши модели, тем лучше они узнают о динамике мира. К счастью для нас, в современном мире данные повсюду, они разбросаны по разным местам, где они были собраны.

Примерами этого являются пользовательские данные, которые ежедневно собираются нашими мобильными телефонами, медицинским оборудованием и практикующими врачами в медицинских учреждениях и т. д. Обычно, если мы хотим обучить модель обучения, мы собираем данные из этих нескольких источников, хранить их в одном централизованном хранилище, а затем запускать процесс обучения. Этот процесс называется Централизованное обучение.

Несмотря на доказанную эффективность, централизованное обучение все еще имеет некоторые ограничения. Возможно, одним из самых насущных является отсутствие конфиденциальности данных. Некоторые предприятия просто не могут позволить себе предоставлять свои данные в каком-либо удаленном месте для целей обучения моделей, особенно с учетом новых действующих законов и правил, направленных на защиту наших личных и частных данных. Не говоря уже об ограничениях хранения и сети, связанных с необходимостью передачи огромного объема данных через Интернет из каждого источника данных в одно центральное место.

Из-за этих факторов федеративное обучение (FL) стало горячей темой исследований в области машинного обучения. FL решает упомянутые выше проблемы, выполняя машинное обучение на месте. Это означает, что каждое отдельное устройство или локальный сервер обучает модель на своих собственных данных и в своей среде, вообще не взаимодействуя с центральным расположением. После этого локальные серверы отправляют изученные веса моделей на централизованный сервер, который их агрегирует и строит глобальную модель, как показано на рисунке 1.

Другими словами, вместо передачи данных мы сообщаем модели.

Заявки и предыдущая работа

Хотя FL все еще является активной областью исследований, он уже был протестирован в различных приложениях и средах. Возьмем, к примеру, здравоохранение. Возможно, это область номер один, нуждающаяся в новом решении, таком как FL, для обеспечения машинного обучения из-за строгих правил, защищающих данные пациентов. При наличии FL множество разнообразных данных из различных баз данных и устройств здравоохранения могут способствовать разработке моделей ИИ, при этом оставаясь в соответствии с такими нормами, как HIPAA и GDPR.

Есть несколько задач классификации в здравоохранении, которые были изучены с использованием федеративной среды обучения, например; диагностика рака, обнаружение COVID-19, распознавание активности и эмоций человека, прогнозирование госпитализации пациентов, прогнозирование смертности пациентов и диагностика сепсиса. Эти недавние исследования смогли дать замечательные результаты, сравнимые с результатами централизованной модели. Одним из примеров является использование федеративного обучения для прогнозирования клинических исходов у пациентов с COVID-19. Ученые использовали данные из 20 источников по всему миру для обучения модели FL, сохраняя при этом анонимность. Модель, получившая название EXAM (модель электронной медицинской карты грудной клетки, рентгеновского ИИ), направлена на прогнозирование будущих потребностей в кислороде пациентов с симптомами COVID-19. Модель обучалась на вводе показателей жизнедеятельности, лабораторных данных и рентгенографии грудной клетки.

Реклама также является областью, в которой используются личные данные пользователей для обеспечения наилучшего персонализированного опыта для пользователей, что делает ее привлекательной областью для тестирования FL-фреймворков, тем более что пользователи теперь гораздо лучше осведомлены о том, какой объем их личных данных собирается. и собирают ежедневно. Facebook, например, объявил о своих планах перестроить свою рекламу, чтобы сделать приоритетной конфиденциальность данных пользователей. Компания изучает обучение на устройстве. Это работает путем запуска алгоритмов локально на телефоне пользователей, чтобы выяснить, какая реклама им интересна. Затем результаты отправляются обратно на облачный сервер в агрегированном и зашифрованном формате. Вот так у вас на стене останутся только милые картинки с кошками.

FL обещает революцию в автономных транспортных средствах и Интернете вещей. Во-первых, потому что он защищает личные данные пользователя. Во-вторых, потому что традиционное облачное обучение предполагает передачу огромных объемов данных и более низкую скорость обучения. Кроме того, федеративное обучение может позволить автономным транспортным средствам реагировать более быстро и правильно, сводя к минимуму количество аварий и повышая безопасность. Более того, многие исследования показывают, что FL имеет большой потенциал в таких приложениях, как FinTech (Финансы-технологии) и страховой сектор, все из которых являются приложениями, которые подчеркивают конфиденциальность данных пользователей.

Типы федеративного обучения

Обучение FL, как и многие другие фреймворки ML, бывает разных цветов и вкусов. Эти различия можно наблюдать во многих частях процесса обучения, но в целом мы можем разделить ИЯ на два типа на основе схемы агрегации. Мы называем схему агрегации методом, с помощью которого информация, полученная из разных источников, объединяется в одну единую глобальную модель.

Централизованное и децентрализованное федеративное обучение

Во-первых, мы представляем централизованный FL (CFL). Будьте осторожны, чтобы не запутаться со словом «централизованное». Метод, который мы здесь упоминаем, отличается от обычного централизованного обучения. Как и в любой другой среде FL, данные никогда не покидают своего источника. Причина, по которой она называется «централизованной», заключается в том, что глобальная модель находится в централизованном месте, к которому имеют доступ все стороны. Это показано на рисунке 2.

На рис. 2 показан пример CFL, где клиентскими узлами являются разные больницы. В этом случае каждая из этих больниц будет отдельно обучать модель только на своих данных и отправлять периодические обновления на центральный сервер. Затем центральный сервер объединит эти обновления для создания глобальной модели, которая будет отправлена всем клиентам на более позднем этапе. Однако очевидным недостатком CFL является то, что центральный сервер является единственной точкой отказа. Это означает, что если центральный сервер выходит из строя, вся операция также не работает.

С другой стороны, у нас есть децентрализованный FL, который был создан с целью избежать центральной точки отказа. В этой настройке все клиентские узлы координируют свои действия для разработки глобальной модели децентрализованным способом:

В DFL одной из клиентских нод дается исходная модель, это может быть предварительно обученная модель или только что инициализированная. Эта глобальная модель обновляется, как правило, последовательно, клиентский узел за клиентским узлом, пока не будет получена удовлетворительная метрика. И, поскольку в этой настройке нет центрального сервера, при отказе одной из клиентских нод она будет просто исключена из цепочки, а процесс обучения продолжится без неработающей ноды.

Горизонтальное и вертикальное федеративное обучение

В то же время модели FL можно разделить в соответствии с их механизмом разделения данных, а именно: горизонтальный FL (HFL) и вертикальный FL (VFL). HFL в основном используется, когда существует ограниченная изменчивость выборки между данными клиентских узлов. В частности, мы хотим использовать HFL, когда в данных большинства клиентов присутствуют разные образцы одних и тех же важных признаков:

В приведенном выше примере у нас есть сценарий, в котором разные медицинские учреждения собирают одинаковый набор признаков для разных пациентов.

Напротив, VFL используется, когда функции на разных клиентских узлах не обязательно одинаковы, но образцы поступают от одного и того же субъекта. Например, мы могли бы попросить пациента обратиться в медицинский центр, специализирующийся на кардиологии, чтобы получить некоторую информацию о состоянии его сердечно-сосудистой системы, и в то же время обратиться в отдельное учреждение, чтобы получить помощь с его привычками питания. Fl поможет этим двум учреждениям объединить свои данные «по вертикали», чтобы лучше понять этого пациента:

Основные вызовы

Дорогая связь

FL требует, чтобы устройства итеративно обменивались своими параметрами ML, и, таким образом, время, необходимое для совместного изучения надежной модели, зависит не только от количества шагов обучения, но и от времени передачи параметров ML на шаг. Федеративные сети потенциально состоят из огромного количества устройств, например, миллионов смартфонов, и связь в сети может быть на много порядков медленнее, чем локальные вычисления, поскольку они отправляют свои обновления модели через сеть на центральное устройство, которое агрегирует их, а затем отправляет обратно.

Один из способов решить эту проблему — сократить количество раундов связи между пограничными устройствами и центральным сервером. Однако это происходит за счет потери разрешения в передаваемой информации. Другим решением для устранения этого узкого места в коммуникации может стать метод наподобие асинхронного SGD, который ускоряет процесс обучения, обновляя параметры сразу после того, как вычислительный узел отправил свои градиенты, т. е. не ждет, пока все вычислительные узлы отправят свои градиенты. градиенты для обновления глобальной модели.

Наконец, мы также можем применить схемы сжатия, чтобы уменьшить размер обновлений модели. Некоторые исследователи предложили методы градиентного квантования, в которых градиенты квантуются до более низких значений точности, чтобы заставить модель обновления быть разреженной и иметь низкий ранг. Существуют также методы разрежения градиента или отбрасывания градиента, при которых градиенты либо отправляются на сервер, если они превышают заданный порог, либо просто отбрасываются. В некоторых исследованиях также изучались более сложные схемы сжатия, такие как Deep Gradient Compression. В этом методе используются различные методы, такие как коррекция импульса, отсечение локального градиента, маскирование коэффициента импульса и предварительная тренировка для уменьшения пропускной способности канала связи. Юджун Лин и др. al удалось добиться двукратного сжатия без ущерба для точности.

Неоднородность системы

Идентичность устройств в среде FL не гарантируется. Изменчивость можно увидеть в технических характеристиках оборудования, коммуникационных возможностях или даже мощности. Эти проблемы, если их не решить, позволяют некоторым устройствам отставать, то есть не все устройства гарантированно остаются активными на каждой итерации обучения, или устройства нередко просто выпадают из-за ограничений подключения или энергии.

Во время нашего обзора литературы мы столкнулись с двумя интересными подходами к решению этой проблемы. Первый метод — активная выборка. В этом подходе устройства, участвующие в каждой итерации, выбираются с целью агрегирования как можно большего количества обновлений устройств в течение заданного временного окна, в отличие от пассивной выборки, которая не направлена на то, чтобы влиять на то, какие устройства участвуют во время итерации.

Второй подход— этоотказоустойчивость, которая широко изучалась в сообществе. Отказоустойчивость критически важна для участвующих устройств на случай, если какое-либо из них выйдет из строя до завершения заданной итерации обучения. Это, конечно, гораздо лучшая стратегия, чем простое игнорирование упавших устройств, потому что это может привести к предвзятости обучения в отношении тех устройств в сети с лучшим соединением.

Статистическая неоднородность

Распределение данных в узлах во время FL, вероятно, будет различным и даже необъективным, это может быть связано с небольшим количеством собранных данных или с разными методами сбора данных. Эта парадигма генерации данных нарушает часто используемые независимые и одинаково распределенные (I.I.D.) предположения в распределенной оптимизации.

FAug (Federated Augmentation) с использованием генеративно-состязательных сетей — один из распространенных подходов к решению этой проблемы. Некоторые исследователи показали, что естественным способом решения статистических задач (не IID) данных является Многозадачное обучение (MTL), цель которого состоит в том, чтобы учиться на каждом узле, имея отдельные, но связанные модели. По сути, если каждый узел имеет разное распределение, то мы можем думать о каждом узле как о новой задаче, и цель состоит в том, чтобы учиться на этих связанных, но разных задачах.

Вопросы конфиденциальности

Конфиденциальность и безопасность являются основной мотивацией для федеративного обучения, и это, естественно, обеспечивает конфиденциальность входных данных, поскольку он использует только параметры обучения модели, а не сами данные. Недавние исследования, однако, смогли доказать, как данные обучения могут быть получены из обновленной обученной модели (обученных параметров) с точностью до 90%.

Чтобы предотвратить воссоздание данных злоумышленниками, эффективный метод, такой как дифференциальная конфиденциальность (DP) с относительно низкими затратами на связь, может добавить некоторый шум к обученным параметрам модели перед их загрузкой на сервер агрегации. Тем не менее, существует компромисс между точностью модели и дифференциальной конфиденциальностью; когда мы включаем больше шума для обеспечения конфиденциальности, точность падает.

Точно так же при использовании полностью гомоморфного шифрования (HE) веса модели обучаются на зашифрованных данных, и расшифровать их могут только владельцы закрытого ключа. Несмотря на то, что модель обучается на зашифрованных данных, она должна иметь такие же результаты на исходных данных после расшифровки, как если бы она обучалась на исходных данных с самого начала. Как показано на рисунке ниже, операции, выполняемые над функциями, зашифрованными гомоморфным шифрованием, дают те же результаты, что и исходная функция при расшифровке.

Будущая работа и открытые вызовы

Хотя FL прошла долгий путь в решении проблем, которые ранее сдерживали использование ИИ в областях, чувствительных к конфиденциальности, все еще остаются некоторые нерешенные проблемы.

Обработка больших объемов данных в режиме реального времени. Работа с большими потоками данных по-прежнему является активной областью исследований, особенно в мире, где миллионы устройств по всему миру генерируют данные каждую секунду. Интеграция этих данных в режиме реального времени осмысленным образом, с эффективным использованием энергии и производительности, по-прежнему остается сложной задачей.
Интеграция различных источников данных. В настоящее время у нас есть доступ ко всем источникам данных, например изображения, звуки, видео, данные геолокации и т. д., и их интеграция в настройку FL еще предстоит полностью освоить.
Неизменность данных и безопасность. Хотя в настоящем исследовании мы представили несколько способов решения проблемы неизменности данных и защиты данных от злоумышленников. Это не жесткие правила, и наилучшие методы для использования во многом будут зависеть от приложения, объема данных, количества участвующих клиентов и т. д. Поиск оптимального решения с наилучшим компромиссом требует значительного количества исследований и понимания задачи. под рукой.
Гражданская наука. Благодаря FL стало возможным множество интересных и новых возможностей, например, Citizen Science. То есть создание сообщества людей, которые активно предоставляют качественные данные для общего блага, т. е. картирование вырубки лесов, загрязнение пляжей пластиком и т. д. Проблема остается в развитии и стимулировании сообщества для предоставления ценных и частых данных.
Инструменты. Не существует идеальной платформы для FL. Некоторые люди предпочитают готовые фреймворки, в то время как в некоторых сложных приложениях может быть лучше создать пользовательский фреймворк с нуля. Тем не менее, выбор правильного набора инструментов для приложения FL может иметь значение между успешным проектом и неудачным. Краткое описание некоторых наиболее популярных фреймворков показано на следующем изображении. Также оформите заказ Цветок для простого в настройке приложения FL :)

Имя платформы Раздел данных Распределение данных Атака на конфиденциальность данных Моделирование Метод защиты конфиденциальности данных PySyft HFL, VTL IID, не IID ❌ DP, HE TFF HFL ❌ ❌ ❌ FATE HFL, VTL ❌ ❌ HE Sherpa.ai HFL IID, не IID Data Poison DP LEAF HFL ❌ ❌ ❌

Федеративное обучение — обзор проблемы, вызовов и возможностей — Рауль Хименес…

Заявки и предыдущая работа

Типы федеративного обучения

Централизованное и децентрализованное федеративное обучение

Горизонтальное и вертикальное федеративное обучение

Основные вызовы

Дорогая связь

Неоднородность системы

Статистическая неоднородность

Вопросы конфиденциальности

Будущая работа и открытые вызовы

Рекомендации

Федеративное обучение — обзор проблемы, вызовов и возможностей — Рауль Хименес…

Заявки и предыдущая работа

Типы федеративного обучения

Централизованное и децентрализованное федеративное обучение

Горизонтальное и вертикальное федеративное обучение

Основные вызовы

Дорогая связь

Неоднородность системы

Статистическая неоднородность

Вопросы конфиденциальности

Будущая работа и открытые вызовы

Рекомендации

Вопросы по теме