Федеративное обучение: совместное использование и улучшение моделей

Введение

WEF опубликовал очень интересный технический документ, описывающий различные методы повышения конфиденциальности. Вы можете найти документ в разделе https://www.weforum.org/whitepapers/the-next-generation-of-data-sharing-in-financial-services-using-privacy-enhancing-techniques-to-unlock-new. -ценность." В документе представлены различные связанные методы и их применение к финансовым услугам.

Эти методы представляют собой решения проблем конфиденциальности и конфиденциальности, когда вы хотите поделиться конфиденциальной личной информацией с третьими лицами.

В этой короткой статье мы сосредоточимся на федеративном обучении.

Объединенный анализ

Одна модель представляет особый интерес — модель федеративного анализа. С помощью этой техники мы объединяем изученные модели вместе, чтобы сформировать общую модель. Концепция описана на странице 12 технического документа, где случай обнаружения спама используется для демонстрации использования такой концепции. Этот подход не без проблем, модели имеют тенденцию очень быстро устареть, если они не обновляются новыми оперативными данными. Это означает, что модели придется регулярно переобучать и снова комбинировать. Это требует высоких затрат на техническое обслуживание и создает риск получения неточных результатов.

При таком подходе личные данные никогда не передаются никакому участнику модели, а только результирующая модель машинного обучения. Это одно из самых распространенных заблуждений о моделях машинного обучения. Данные обучения не включаются в обученную модель, поэтому это не является проблемой с точки зрения конфиденциальности данных. Если мы возьмем в качестве примера нейронную сеть, она будет включать только веса, связанные с каждым нейроном, но не сами данные.

Федеративное обучение

Мы хотим выйти за рамки этого относительно статического подхода и вместо того, чтобы делиться изученной моделью, мы хотим реализовать единую модель, совместно используемую разными участниками. Такой совместный подход, основанный на блокчейне, был предложен исследователями Microsoft в разделе https://www.microsoft.com/en-us/research/blog/leveraging-blockchain-to-make-machine-learning-models-more-accessible. /». Мы не думаем, что нам нужен блокчейн для реализации концепции. Но если мы хотим иметь полностью открытую платформу, включающую способ поощрения участников и сделать модель легко доступной, блокчейн может предложить для этого хорошее решение.

Каждый участник будет вносить свой вклад в модель, обучать и улучшать ее. Это имеет большое преимущество перед другими методами. Участники могут использовать модель, добавлять новые данные и улучшать модель в режиме реального времени. Это также позволяет заинтересованным участникам получить доступ к моделям, обученным на гораздо большем количестве данных, которые они смогут собрать. Это очень привлекательно, например, для небольших учреждений или для крупных компаний, которые не имеют доступа к определенным данным.

Технологии

Технология, лежащая в основе модели, уже хорошо известна. Мы можем подумать о развертывании модели в облаке с использованием бессерверной архитектуры. Затем необходимо опубликовать простые API-интерфейсы для обучения модели новым данным, а также использовать модель, отправляющую новые данные для прогнозирования или классификации. Студия машинного обучения Azure предоставляет простой способ развертывания моделей с помощью REST API.

Модель экономики

Чтобы такая модель работала, мы должны найти стимулы для каждого участника Экосистемы. Как предложила Microsoft, мы можем думать о вознаграждении участника, когда улучшаются определенные показатели модели, например точность или точность или AUC. Каждый пользователь модели будет платить за каждый вызов модели, как это делается в обычных облачных сервисах.

Первоначально опубликовано на https://smartlake.ch 13 октября 2019 г.