1. Расширение популяции для языковых моделей обучения с помощью частного федеративного обучения (arXiv)

Автор: Тацуки Кога, Цунчжэн Сонг, Мартин Пеликан, Мона Читнис.

Аннотация: Федеративное обучение (FL) в сочетании с дифференциальной конфиденциальностью (DP) предлагает обучение машинному обучению (ML) с распределенными устройствами и с официальной гарантией конфиденциальности. При большом количестве устройств FL с DP своевременно производит производительную модель. Однако для приложений с меньшим числом пользователей не только ухудшается полезность модели, поскольку шум DP обратно пропорционален населению, но также увеличивается задержка обучения, поскольку ожидание доступности достаточного количества клиентов из меньшего пула происходит медленнее. Таким образом, в этой работе мы предлагаем расширить популяцию на основе методов адаптации предметной области, чтобы ускорить обучение и улучшить качество конечной модели при обучении с небольшими популяциями. Мы эмпирически демонстрируем, что наши методы могут повысить полезность на 13–30 % в реальных наборах данных языкового моделирования.

2. Частное федеративное обучение в Gboard (arXiv)

Автор: Юаньбо Чжан, Даниэль Рэймидж, Чжэн Сюй, Яньсян Чжан, Шумин Чжай, Питер Кайруз.

Аннотация: В этом техническом документе описываются последние достижения Gboard (Google Keyboard) в использовании федеративного обучения, алгоритма DP-Follow-the-Regularized-Leader (DP-FTRL) и безопасных методов агрегирования для обучения моделей машинного обучения (ML) для предложение, предсказание и исправление интеллекта на основе данных, введенных многими пользователями. Инвестиции Gboard в эти технологии обеспечения конфиденциальности позволяют обрабатывать вводимые пользователями данные локально на устройстве, объединять их как можно раньше, а также по возможности обеспечивать строгую анонимность и дифференцированную конфиденциальность. Были разработаны технические стратегии и практики, позволяющие обучать и развертывать модели машинного обучения со значимыми формальными гарантиями DP и высокой полезностью. В документе также рассматривается, как такие технологии, как доверенные среды выполнения, могут использоваться для дальнейшего повышения конфиденциальности и безопасности моделей машинного обучения Gboard.