Почему машинное обучение с сохранением конфиденциальности набирает популярность? Как организации могут использовать преимущества таких систем для улучшения моделей ИИ?

В последнее десятилетие наблюдается быстрый рост приложений машинного обучения и искусственного интеллекта. Как справедливо заметил Эндрю Нг, ИИ действительно является новой электроэнергией, которая трансформирует практически все отрасли. Силами, движущими этот уровень роста, являются данные и вычислительная мощность. И объем генерируемых данных, и вычислительная мощность будут расти в геометрической прогрессии в обозримом будущем. Поскольку результаты моделей ИИ настолько хороши, насколько хороши данные, доступ к большему количеству данных будет означать, что мы сможем создавать более качественные модели ИИ. Очевидно, что нам нужно больше данных, но нам также нужны данные, которые достаточно разнообразны и регулярно обновляются.

Но в чем подвох?

Каждый раз, когда вы ищете что-то в Интернете, или задаете вопрос Alexa, или используете любое приложение, которое вы скачали из Интернета, или даже совершаете какие-то финансовые транзакции, вы передаете данные компаниям. Данные, которые могут быть личными.

Люди рассказывают Google вещи, которые они могут не рассказывать никому другому.

— Сет Стивенс-Давидовиц (автор книги «Все лгут»)

Наши личные данные хранятся в больших базах данных, которыми владеют организации. Эти данные затем используются ими для составления персонализированных прогнозов для нас. Например, персонализированные рекомендации фильмов от Netflix, рекомендации по продуктам от Amazon или рекомендации AD от Facebook используют нашу личную информацию. И давайте будем честными: мы все зависим от этого личного опыта. Итак, давайте зададим вопрос: должны ли мы обменять нашу конфиденциальность на персонализацию?

На самом деле мы не видим недостатков передачи наших личных данных компаниям, пока не прочитаем такие заголовки новостей:

В то время как некоторые приложения используют данные для предоставления нам персонализированных рекомендаций, есть и другие, особенно в секторе здравоохранения, которые используют данные для спасения жизней. Организации здравоохранения перешли на цифровое ведение документации и построили собственную инфраструктуру данных для своих нужд. Однако данные, накопленные этими организациями, распределяются по разным организациям [2], что создает острова данных.

Хотя объединение этих островов данных значительно улучшит проблемы с конфиденциальностью ухода за пациентами, проблемы владения являются препятствиями на пути к этой цели. Соединение таких островов данных становится невозможным из-за ограничений и законов о конфиденциальности, таких как GDPR [3] и CCPA[4]. Простого добавления ИИ к таким фрагментированным системам недостаточно.

Выше обсуждались два разных сценария. Первый известен как настройка B2C или бизнес-потребитель: каждый человек владеет своими личными данными и хочет, чтобы они использовались для получения персонализированного опыта, но не за счет нарушения конфиденциальности. Второй вариант — B2B или бизнес-бизнес: когда крупные организации владеют и хранят данные, выделенные из соображений конфиденциальности, но хотели бы, чтобы они использовались для создания лучших моделей. В идеальном мире мы могли бы собрать все данные в одном месте и использовать их для создания более совершенных систем искусственного интеллекта и надеяться, что данные используются ответственно.

Способ сохранения конфиденциальности

Однако есть и другой взгляд на эту проблему. Вместо того, чтобы данные перемещались из разных источников в центральное место, мы могли бы позволить модели машинного обучения перемещаться между местоположениями.

Вместо того, чтобы данные перемещались из разных источников в центральное место, мы могли бы позволить модели машинного обучения перемещаться по местам.

Обычно специалисты по данным собирают и агрегируют данные в одном месте и используют их для обучения моделей машинного обучения. Но поскольку так много мировых данных заперто на этих островах данных, ученые и инженеры пытаются разработать решения, которые не зависят от центрального источника данных. Эта идея лежит в основе систем машинного обучения, сохраняющих конфиденциальность, которые широко известны как федеративное обучение (FL) или федеративное машинное обучение (FML).

В федеративных условиях модель машинного обучения обучается локально на источнике, которым может быть источник данных или пограничное устройство, содержащее частные пользовательские данные. Затем локально обученная модель отправляется в центральное расположение, где центральная модель обновляется.

Этот тип обучения машинному обучению был успешно реализован McMahan et al. [5] для обновления языковых моделей в мобильных телефонах в Google. Следовательно, федеративное обучение можно использовать для создания моделей машинного обучения, которые позволяют данным оставаться в исходном местоположении, в то время как некоторая информация модели машинного обучения обменивается между местоположениями. Обмениваемая информация не раскрывает активно личную или конфиденциальную информацию.

Преимущества использования федеративного обучения

Есть несколько преимуществ использования этого типа обучения по сравнению с традиционным подходом. Первая и, вероятно, самая важная причина заключается в том, что данные никогда не покидают своего первоначального местоположения. Единственное, что передается из источника данных, — это параметры модели. Таким образом, никому не нужно убеждать разные организации делиться своими данными. Во-вторых, не перемещая данные, мы можем снизить коммуникационную нагрузку. Стоимость перемещения модели на несколько порядков ниже стоимости перемещения самих данных. В-третьих, выполняя обучение в отдельных местах данных, мы можем преодолеть проблемы, связанные с нормализацией и предварительной обработкой данных в источниках данных. Специалистам по данным не придется беспокоиться о сопоставлении данных из разных источников с общим форматом.

Заключительные замечания

Поэтому, используя федеративное обучение, мы можем получить надежную модель, которая обучается на различных наборах данных, сохраняя при этом конфиденциальность. Он становится все более популярным в различных отраслях промышленности. Тем не менее, федеративное обучение сопряжено с собственным набором проблем, таких как состязательные атаки, утечка данных и подделка моделей, с которыми должны быть осторожны специалисты по обработке и анализу данных.

Спасибо Скайлару Александру и Картику Чопре за правки и комментарии.

[1] http://www.dartconsulting.co.in/market-news/artificial-intelligence-market-landscape-key-players-use-cases-ai-growth/
[2] Панч, Т., Мэтти Х. и Сели Л.А. Неудобная правда об ИИ в здравоохранении. цифра npj. Med. 2,77 (2019)
[3] GDPR: https://en.wikipedia.org/wiki/General_Data_Protection_Regulation
[4] CCPA: https://en.wikipedia.org/wiki/California_Consumer_Privacy_Act
[3] H. Brendan McMahan, Eider Moore, Daniel Ramage, Seth Hampson, Blaise Agüera y Arcas, Эффективное коммуникационное обучение глубоких сетей из децентрализованных данных (2016 г.)