Представляем Dropout Labs

Мы рады представить Dropout Labs, компанию, специализирующуюся на безопасном машинном обучении с сохранением конфиденциальности.

Мы верим:

Доступ к конфиденциальным данным улучшит ИИ, но не должен ставить под угрозу конфиденциальность.
Контроль над данными со стороны владельца поможет согласовать ИИ с ценностями людей и общества.
Совместное владение данными и искусственный интеллект откроют новые бизнес-модели.

Сегодня конфиденциальность данных и искусственный интеллект находятся в противоречии из-за огромного количества данных, необходимых для обучения модели, и из-за чувствительности, окружающей данные. Это создает проблему для организаций, которые используют ИИ для извлечения максимальной ценности из своих данных при соблюдении правил конфиденциальности данных, а также для потребителей, которым нужны интеллектуальные продукты и услуги, но которые обеспокоены тем, как организации используют их данные.

В будущем наши самые полезные приложения будут полагаться на самые конфиденциальные данные.

Наши самые конфиденциальные данные - самые ценные для ИИ. ИИ может обрабатывать медицинские записи, финансовые отчеты, историю местоположений и голосовые записи для предоставления услуг, которые улучшают нашу жизнь. К сожалению, наши конфиденциальные данные также могут быть использованы против нас. Естественно, мы проводим грань между конфиденциальностью и полезностью, когда дело доходит до передачи наших данных третьим лицам.

Не секрет, что наши данные собирают приложения, которые мы используем. Это скрытая стоимость многих бесплатных приложений и сервисов, которые мы используем. Но почему это так? И дело не только в бизнес-моделях, основанных на рекламе, которые обрабатывают наши данные для таргетинга. Это из-за ограничений в технологии шифрования.

Состояние шифрования

Сегодня технология шифрования широко используется для защиты наших приложений во всех важных областях, кроме одной.

Безопасные сети, такие как HTTPS, используются на большинстве ведущих веб-сайтов и приложений в мире. Он защищает нашу информацию при ее перемещении по Интернету.
Защищенное хранилище используется нашими телефонами, ноутбуками и облачными службами. Он защищает наши сохраненные данные, такие как фотографии и пароли.
Однако безопасные вычисления все еще появляются. Он может защитить наши данные, когда они обрабатываются приложениями и службами.

К сожалению, продукты, которые мы используем сегодня, полагаются на открытый (незашифрованный) доступ к нашим данным для их обработки. Хотя наши данные зашифрованы при передаче и зашифрованы при хранении, при использовании они не зашифрованы. Безопасные вычисления еще недостаточно развиты, чтобы их можно было использовать в любом масштабе. Это самое слабое звено в современной модели конфиденциальности данных в Интернете.

Представьте, если бы мы могли пользоваться любимыми продуктами, не беспокоясь о своих личных данных. Мы можем извлечь пользу из наших конфиденциальных данных, улучшая нашу жизнь и общество, сохраняя при этом право собственности на нашу информацию. Нам необходимо улучшить безопасность вычислений, чтобы люди и организации могли на таком уровне контролировать свою конфиденциальность.

Что такое безопасные вычисления и какие проблемы они могут решить?

Проблема миллионеров

В 1980-х годах Эндрю Яо поставил проблему: как два человека могут определить, кто богаче, не раскрывая свою чистую стоимость и не прибегая к помощи доверенной третьей стороны? Яо сам предоставил первое решение, разработав протокол для безопасных многосторонних вычислений или просто безопасных вычислений.

Производительность исторически была основным препятствием, препятствующим внедрению безопасных вычислений. Другими словами, это было слишком медленно, чтобы быть практичным. После многих лет исследований теперь существуют аспекты безопасных вычислений, которые являются выполнимыми. Некоторые операции могут быть вычислены безопасно и с практической производительностью. Есть ли сегодня убийственное применение безопасных вычислений с учетом этих ограничений?

Безопасное машинное обучение

Оказывается, математика, которую могут эффективно выполнять безопасные вычисления, - это та же математика, которая обычно используется в машинном обучении. Между улучшениями в протоколах безопасных вычислений за последние 30 лет и достижениями в нейронных сетях мы решили собрать команду криптографов и инженеров по машинному обучению для работы над безопасным машинным обучением с сохранением конфиденциальности.

Наш соучредитель, Мортен Даль, начал серию сообщений в блоге, исследующих конвергенцию между глубоким обучением и безопасными вычислениями. С тех пор мы сосредоточили свое внимание на том, чтобы облегчить исследователям криптографии и машинного обучения разработку новых безопасных протоколов машинного обучения, а специалистам по данным - внедрить конфиденциальность в свой рабочий процесс.

TensorFlow, зашифрованный

Мы решили разработать управляемую сообществом среду с открытым исходным кодом для экспериментов с частным машинным обучением поверх TensorFlow, называемую tf-encrypted.

Tf-encrypted позволяет обучать, проверять и предсказывать зашифрованные данные. Данные остаются зашифрованными в течение всего рабочего процесса Data Science. Благодаря безопасному прогнозированию модели машинного обучения можно размещать в облаке без дешифрования входных и выходных данных запроса. Это означает, что пользователи могут извлечь выгоду из облачного машинного интеллекта, одновременно защищая конфиденциальность своих данных.

Дополнительные технические подробности см. В нашей статье Частное машинное обучение в TensorFlow с использованием безопасных вычислений.

Мы считаем, что технология сохранения конфиденциальности поможет ИИ ответственно преобразовать такие вертикали, как здравоохранение, финансы и транспорт, управляя сложностями обеспечения конфиденциальности данных.

Как работает безопасное машинное обучение?

Допустим, мы хотим предсказать человека, чье лицо появится на фотографии. Это обычная задача в машинном обучении. Используя безопасное машинное обучение, мы можем зашифровать как модель, так и запрос.

Берем изображение, шифруем и отправляем на сервер. Сервер выполняет прогнозирование безопасно, что означает, что все остается в зашифрованном состоянии. Таким образом, хотя сервер ничего не узнает, он все равно дает результат. Только конечный пользователь может расшифровать прогноз.

Примеры использования

На заре Интернета HTTPS использовался только для конфиденциальных операций, таких как платежи и банковское дело.

Между данными и интеллектом есть личные, конкурентные и нормативные границы. По этим причинам наиболее ценные данные сегодня заблокированы. Безопасное машинное обучение может обеспечить доступ к данным при соблюдении этих границ. Другими словами, безопасное машинное обучение сохраняет конфиденциальность конфиденциальных данных. Какие есть примеры?

Лично я еще не воспользовался генетическим тестированием, потому что мне не нравится риск того, что мои данные будут использованы не по назначению. Представьте себе, если бы мой генетический профиль и результаты анализа были видны только мне? Если бы было математически доказано, что мои данные оставались секретными в течение всего процесса, плюсы перевесили бы минусы. Я мог воспользоваться невероятным прогрессом, достигнутым генетиками, без риска нарушения конфиденциальности.
Больницы могут начать использовать облачный искусственный интеллект, управляя сложностью правил конфиденциальности данных и естественной чувствительностью медицинских данных. Представьте себе помощь офтальмологам, сканируя изображения сетчатки на предмет диабетической ретинопатии, или патологам, сканируя биопсии лимфатических узлов на предмет распространения рака груди. Подобные прорывы в области искусственного интеллекта помогут преобразовать здравоохранение, но нам нужно быть предельно осторожными с данными такого рода. Нам нужно безопасное машинное обучение для обработки этих задач с сохранением конфиденциальности.
Безопасные вычисления могут даже привести к совершенно новым бизнес-моделям. Представьте себе несколько крупных банков, объединяющих свои данные для обучения модели обнаружения мошенничества, которая является более точной, чем та, которую мог бы разработать один банк самостоятельно. Конкурентная и регулятивная ответственность сегодня была бы слишком велика. Однако с помощью безопасного машинного обучения каждый банк может сохранять контроль над своими данными. Одна сторона может отозвать свои данные позже, а другие могут продолжить без этого. Никаких данных не будет. Никакой контроль не будет потерян.

Потребители, предприятия и организации должны иметь выбор в отношении использования их данных. От приложений до партнерских отношений, пользователи должны сохранять контроль над данными, которые они вносят в таблицу. Хранители наших данных должны иметь возможность расширять этот контроль при взаимодействии с третьими сторонами, такими как исследователи и разработчики приложений, сохраняя при этом полную уверенность, что они могут отозвать его в случае неправомерного использования.

Защищайте ИИ везде

На заре Интернета HTTPS использовался только для конфиденциальных операций, таких как платежи и банковское дело. Это позволило создать новые сценарии использования и расширило сферу того, что нам было удобно делать в Интернете. С годами технология совершенствовалась за счет повышения производительности, снижения стоимости и простоты внедрения. Сегодня HTTPS есть повсюду, от платежей и банковских операций до блогов. Хотя сегодня безопасное машинное обучение может быть ограничено новыми сценариями использования, мы полагаем, через 10–15 лет наши приложения и сервисы по умолчанию будут сохранять конфиденциальность.

В будущем наши самые полезные приложения будут полагаться на наши самые конфиденциальные данные, и нам это будет удобно.

Спасибо Эду Симу и Борису Верцу за помощь в написании этого сообщения.

О Dropout Labs

Мы - команда инженеров по машинному обучению, разработчиков программного обеспечения и криптографов из США, Франции и Канады. Мы работаем над безопасными вычислениями, чтобы обеспечить обучение, проверку и прогнозирование зашифрованных данных. Мы видим ближайшее будущее, в котором отдельные лица и организации сохранят контроль над своими данными, при этом получая выгоду от облачного машинного интеллекта.

Следите за Dropout Labs в Твиттере и tf-encrypted на GitHub.

Если вы увлечены конфиденциальностью данных и искусственным интеллектом, мы будем рады услышать от вас.

Представляем Dropout Labs