Эта статья представляет собой личную заметку о конфиденциальности от Openmined Course, поэтому эта заметка не заменяет курс (курс очень подробный, наполнен множеством идей и примеров)

Вы можете получить курс здесь: https://courses.openmined.org/

Что такое конфиденциальность? это о какой-то секретности или о чем?

Рассмотрим эти два сценария:

Представьте, что вы увеличиваете масштаб до просмотра улиц в Google и снимаете кого-то, выходящего на улицу в режиме реального времени, человек может заявить о нарушении конфиденциальности, верно?

Или представьте себе случайный снимок на пляже, и вы сфотографировали женщину в бикини, тихо сидящую на циновке под затененным солнцем, ну, она может заявить, что вы нарушаете ее конфиденциальность, даже если она сидит в ней бикини одеваются на публике.

Два предыдущих абзаца показывают, что конфиденциальность - это поток информации; Мы заботимся о том, как наши информационные потоки, кто может видеть или хранить наши данные, если данные попадают в чужие руки или видны не разрешенному лицу или группе, наш информационный поток нарушается, что приводит к нарушению конфиденциальности.

Например, с помощью приложений для обмена сообщениями; Информационные потоки гарантируют, что сообщение, отправленное отправителем, действительно получено получателем без прерывания, то есть служба обмена сообщениями не должна иметь возможность видеть отправленное сообщение и что получатель фактически является тем, кто получает сообщение.

Информационный поток также гарантирует, что сообщение, полученное получателем, действительно отправлено получателем.

Информационный поток должен также гарантировать, что все факторы конфиденциальности, необходимые для потока информации, должным образом установлены.

Принимая во внимание два сценария, которые мы использовали для описания конфиденциальности, если оба человека могли заявить, что их конфиденциальность была нарушена, как же тогда провести грань между тем, что является частным, а что нет? Этот вопрос порождает то, что мы назвали дилеммой конфиденциальности: следует ли передавать часть информации или нет.

Что общество считает личным? Я имею в виду, чем вы можете поделиться с A, чем не можете поделиться с B?

Используя идею информационного потока, мы можем рассматривать нарушение конфиденциальности, поскольку всякий раз, когда информация распространяется и используется вне ее основного контекста, это явление известно как контекстная целостность.

Информационный поток имеет дело с данными, и, поскольку популяризируется, что данные - это новая нефть, что ж, если мы посмотрим на это глубже, Данные - это новый огонь 😏.

Хорошо локализованный огонь можно использовать для блага человека, но негорючий огонь опасен и вреден. Как и данные, без надлежащего информационного потока данные могут быть очень вредными.

Одним из способов сдерживания ущерба от пожара от данных является анонимность данных; анонимизировать имена пользователей, их местонахождение и т. д. Но забавный факт заключается в том, что анонимность снова не работает, личность анонимизированного пользователя может быть легко восстановлена ​​из других доступных данных.

Но хорошая новость в том, что есть способ лучше решить эту проблему.

Что ж, мы сказали, что данные - это огонь, и то, как мы их используем, может быть вредным, должны ли мы затем сделать все данные конфиденциальными, заблокировать их и не осмеливаться делиться ими? это снизит прозрачность.

Иногда прозрачность обеспечивается полностью, но как оценить качество этих общедоступных данных?

Рассмотрим, например, данные рецензии на книгу; данные легко доступны для использования для принятия решений, возможно, покупать книгу или нет. Но насколько мы уверены, что эта информация (рецензия на книгу) верна? Это приводит к тому, что мы назвали дилеммой прозрачности.

Лучше всего будет создать информационный поток, который позволит привлечь отдельных лиц или группы к ответственности за информацию, которая передается и используется.

мы столкнулись с дилеммой конфиденциальности и прозрачности; следует ли обмениваться данными или нет, и как данные, предоставленные общественности, оцениваются и подотчетны.

При попытке решить одну из этих дилемм нам не хватает другой, то есть, если мы попытаемся решить проблему конфиденциальности, мы можем получить меньшую прозрачность, а если мы попытаемся решить эту проблему, мы можем оказаться слишком конфиденциальными. Это компромисс, и мы называем его конфиденциальность-прозрачность Парето.

Информационные потоки внутри сообществ

В этом разделе курса рассказывается о потоках информации внутри сообществ, о том, как они влияют на разные части сообщества.

Один из приведенных примеров - это то, как поток информации внутри сообщества влияет на рыночную конкуренцию.

Если мы хотим обеспечить полную конфиденциальность данных о клиентах (то есть данные должны быть заблокированы, где бы они ни находились, а не передаваться или перемещаться), крупные компании с большими данными о клиентах будут иметь монополию на данные по сравнению с небольшими компаниями или стартапов, а это плохо для здоровой рыночной конкуренции.

Если бы мы также сказали, что данные должны иметь возможность перемещаться, чтобы обеспечить здоровую рыночную конкуренцию, информация о клиентах могла бы в конечном итоге просочиться.

При наличии надлежащей системы информационного потока клиенты могут решить, какой объем своих данных они хотели бы перемещать, поскольку с доступом к своим данным они могут получить качественное обслуживание, а также компании будут нести ответственность за обеспечение безопасности информации клиентов и всякий раз, когда происходит утечка информации, соответствующие органы информируются о необходимых мерах.

В этом разделе также рассказывается о том, как потоки информации внутри сообществ могут помочь обеспечить чистую окружающую среду и надлежащее использование энергии.

Электронные устройства могут быть построены для измерения потребления энергии в каждом доме, и эту информацию можно использовать для помощи в управлении энергосистемой и распределением энергоресурсов, и это хорошо. Но у этого есть и обратная сторона: полученную информацию можно использовать для мониторинга отдельных домов, чтобы узнать, какие электронные устройства у них есть и как они их используют, в какое время суток они (или нет) дома, время дневному сну можно соответствовать, когда выключают все приборы.

Этот тип информации является деликатным, и, если его не обработать должным образом, он может стать формой наблюдения и нанести вред отдельным домам.

При наличии надлежащей системы информационных потоков, подобной той, что реализована на Тайване, ее можно контролировать.

В курсе приводятся другие примеры того, как поток информации в сообществах управляет механизмами исследований, демократии и обратной связи.

Информационные потоки на рынках и их стимулы

Информационные потоки влияют на то, что рынки используют в качестве стимулов. В этом разделе, помимо всего прочего, говорилось о том, как поток информации влияет на стимулы; как он может регулировать, какой рынок нужно оптимизировать, чтобы привлечь больше клиентов, и как он ведет и регулирует войну.

Такие компании, как Netflix и Twitter, борются за внимание клиентов, чтобы продвигать свой бизнес. Генеральный директор Netflix однажды сделал заявление:

«Вы знаете, подумайте о том, когда вы смотрите шоу Netflix и пристраиваетесь к нему, вы не ложитесь спать поздно ночью ... Мы конкурируем со сном, на грани, и это очень большой пул времени» - - Рид Гастингс (главный директор Netflix)

«… Мы конкурируем со сном» - это нездоровый стимул, который действительно повлияет на клиентов и, в свою очередь, на общество.

Но если подумать, что еще компания могла бы оптимизировать, помимо внимания клиентов, это единственные данные и ресурсы, к которым у них есть доступ от клиентов.

Можно было бы использовать более эффективные стимулы, если бы у них был доступ, может быть, к данным о сне, стрессу, данным AA клиентов, это может помочь выбрать тип фильмов, которые клиенты могут захотеть посмотреть; создание дополнительных стимулов для здоровья, например, мы помогаем клиентам бороться с зависимостями или бороться со стрессом, рекомендуя релаксационные фильмы, которые помогают снять стресс после долгого напряженного дня.

Но наличие доступа к таким данным, как описано выше, раскрывает больше клиентов, и это также вредно (что приводит к прозрачности конфиденциальности по Парето), мы не можем доверять отдельной организации, чтобы всегда использовать эти данные во благо.

Благодаря хорошо структурированному информационному потоку, расширяющему границы прозрачности конфиденциальности, Парето, мы всегда можем разработать хорошие стимулы.

Стимулы также ведут к войне. в большинстве случаев причиной войны между двумя странами является то, что одна или обе из них имеют сильные стимулы со стороны своей военной мощи, нового оружия и т. д.

Но что, если обе стороны действительно могут измерить, насколько хорошо они выиграют войну, например, смогут ли обе стороны показать, какое оружие у них есть, или насколько сильна их военная мощь, благодаря этой прозрачности повышается и предотвращается ненужная война.

Что ж, мы можем быть уверены, что обе страны фактически заявят, что у них есть на складе, с точки зрения военной мощи, нового оружия и т. Д. Даже если одна из них полностью прозрачна, другая может решить скрыть некоторую информацию.

Но благодаря структурированному информационному потоку, расширяющему границы конфиденциальности и прозрачности по Парето, мы действительно можем построить систему, предотвращающую войны.

Ограничение информационных потоков

Следующие конкретные проблемы не позволяют нам добиться максимальной конфиденциальности и прозрачности:

  • Проблема копирования
  • Проблема Bundle
  • Проблема Рекурсивного принудительного исполнения

Проблема с копированием: когда вы делитесь информацией, вы полностью теряете контроль над тем, как она будет копироваться и передаваться. Этой проблемы действительно достаточно в индустрии развлечений, что ведет к еще большему пиратству и потере доходов.

Чтобы ограничить копирование информации, может потребоваться строгое наблюдение за тем, как люди копируют и передают информацию, что может привести к слежке и затем нарушению конфиденциальности личности.

Проблема с пакетом: при обмене особо необходимой информацией, вместе с ней передается и другая ненужная информация, тем самым раскрывая больше о человеке.

Например, чтобы войти в панель, проверяется ваш идентификатор, и во время проверки передается другая информация о вас, такая как место рождения, месяц рождения, адрес проживания, тогда как единственная необходимая информация - это знать, есть ли вы старше 18 лет.

Проблема рекурсивного принуждения. Основная идея заключается в том, кто наблюдает за наблюдателем.

Иногда некоторая информация сохраняется и контролируется некоторыми людьми / компаниями (например, ваша информация в Google, Facebook и т. Д.), Чтобы убедиться, что эта информация используется во благо, некоторые другие люди (скажем, правительство) вставляют зарядить, чтобы следить за людьми с данными.

Вопрос в том, кто наблюдает за людьми, наблюдающими за людьми с данными?

Как будет показано в курсе, с помощью надлежащей системы информационных потоков эти проблемы можно свести к минимуму и контролировать.

Структурированная прозрачность

Как мы обеспечиваем конфиденциальность и в то же время обеспечиваем прозрачность без перекоса одного в другой при попытке решить проблему Парето с точки зрения конфиденциальности и прозрачности. Процесс достижения этого называется структурированной прозрачностью.

Следующие инструменты используются для обеспечения структурированной прозрачности:

  • конфиденциальность ввода
  • Конфиденциальность вывода
  • проверка ввода
  • Проверка вывода и управление потоком

Мы подробно обсудим следующие инструменты в следующих разделах.

Конфиденциальность ввода

Конфиденциальность входных данных - это процесс защиты входной информации во всем информационном потоке до тех пор, пока она не попадет на выход.

Подумайте о своих приложениях для обмена сообщениями и о том, как каждое из них обещает сквозное шифрование, то есть они могут видеть отправленное вами сообщение, только между вами и получателем.

Как мы можем убедиться, что никто другой не имеет доступа к вводимой информации, кроме получателя?

Конфиденциальность ввода помогает решить эту проблему с помощью следующих технологий:

  • Криптография с открытым ключом
  • Гомоморфное шифрование
  • Безопасные многосторонние вычисления

Криптография с открытым ключом. Это включает создание открытых и закрытых ключей. Публичный доступ может быть предоставлен кому угодно для отправки вам информации, эта информация, отправленная через ваш открытый ключ, может быть расшифрована только вашим закрытым ключом.

Гомоморфное шифрование. По сути, это позволяет нам выполнять тяжелые вычисления с зашифрованными данными во всем информационном потоке.

Безопасные многосторонние вычисления. По сути, это позволяет многим пользователям вносить свои данные в систему, не раскрывая их другим пользователям в информационном потоке.

Как только конфиденциальность ввода будет обеспечена, позвольте перейти к конфиденциальности вывода

Конфиденциальность вывода

Конфиденциальность вывода - это предотвращение изменения информации для получения дополнительной информации о вводе. Он также направлен на решение проблемы комплектации.

Предположим, у вас есть часть информации, скажем, медицинская, и с использованием одного из методов обеспечения конфиденциальности ввода, такого как гомоморфное шифрование, мы смогли выполнить некоторые вычисления с этой медицинской информацией, чтобы получить некоторые статистические данные.

У нас действительно есть умные люди, которые могут переработать статистические данные, чтобы получить реальную медицинскую информацию. Главный вопрос конфиденциальности вывода состоит в том, как предотвратить пересмотр разработки.

Один из способов интуитивно предотвратить это может заключаться в добавлении некоторой случайности к статистическим выводам, позволяющим генерировать реальную информацию.

Эта интуиция в основном описывает методы, используемые в конфиденциальности вывода, называемые дифференциальной конфиденциальностью.

Дифференциальная конфиденциальность включает добавление шума к выходным данным для обеспечения конфиденциальности. Уровень шума может гарантировать конфиденциальность и в то же время может быть менее полезным статистическим результатом, поэтому этот шум контролируется эпсилон, и это явление известно как составление бюджета конфиденциальности.

Epsilon не только контролирует количество шума, добавляемого к выходным данным, чтобы предотвратить обратное проектирование, но также контролирует количество раз, когда пользователи имеют доступ к вычислениям на реальной информации для получения статистических выходных данных.

У нас могут быть более умные люди, которые могут реконструировать используемый шум, выполняя одну и ту же операцию много времени. Epsilon help сокращает время, необходимое для выполнения такой операции.

Чтобы узнать больше о дифференциальной конфиденциальности, просмотрите раздел, а также ознакомьтесь с этой статьей для полной интуиции.

Проверка ввода

Мы узнали, как обеспечить конфиденциальность вводимых данных, не допуская вмешательства третьих лиц в наши вводимые данные.

еще одна проблема заключается в том, как мы можем гарантировать, что входная информация является правильной информацией, насколько мы уверены, что входная информация отправлена ​​нужным человеком, или как мы можем определить, что входная информация, полученная на выходе, на самом деле является входной информацией ?

Нам нужно действительно проверить этот вывод, и это привело к идее проверки ввода.

Позвольте использовать браузер, например, до того, как браузер загрузит страницу, он проверяет сертификат веб-сайта, содержащий криптографическую подпись, через HTTPS, если сертификат веб-сайта проверен, страница загружается аккуратно, а если нет, то он отклоняется.

Эта криптографическая подпись уникальна для всех веб-сайтов и ее трудно скопировать на другие веб-страницы, поскольку все веб-страницы хешируются и назначаются их соответствующей уникальной подписи, небольшое изменение на веб-странице изменит хеширование и повлияет на его проверку, когда браузер пытается чтобы загрузить это.

Приведенный выше пример - это методы односторонней проверки ввода. У нас могут быть такие сценарии, как система голосования, когда разные люди голосуют, и в конце получается агрегированная сумма с использованием методов конфиденциальности ввода.

Проверка ввода может помочь каждому пользователю узнать, действительно ли его голос был подсчитан, и повлиять на окончательный результат.

Мы поняли суть проверки ввода, давайте перейдем к проверке вывода и управлению потоком.

Проверка вывода и управление потоком

Как мы оправдываем результаты информационного рабочего процесса? Как мы узнаем, правильно ли то, что производит черный ящик, или как мы можем измерить, обеспечивает ли такая система справедливость и предвзятость.

Например, модели машинного обучения - это черные ящики, и судить о том, как они принимают решения, сложно. Согласно нашему сценарию, модели ОД классифицируют чернокожих как преступников или моделей, склонных к гендерным предубеждениям, и тому подобное. Как мы оправдываем результаты этих моделей?

Другой пример - человеческий разум при принятии решения, человеческий разум - это еще и черный ящик, мы не можем сказать, почему кто-то принимает то или иное решение.

Что из того, что если отдельные лица или группы могут принять какое-то решение поделиться своим рабочим процессом принятия решений, чтобы он был прозрачным для общественности, каждый мог бы обосновать правильность результата своего решения.

Но что, если рабочий процесс принятия решений должен быть частным, а не публичным, что ж, лучше всего иметь группу или лицо, которому доверяют, который гарантирует правильность рабочего процесса принятия решений или который обеспечивает надлежащее управление рабочим процессом.

Предыдущий абзац подводит нас к Потоку управления. Это включает в себя предоставление управления другим, чтобы оправдать результат рабочего процесса или сделать с ним все, что они могут захотеть.

Но это приводит к тому, что мы назвали проблемой рекурсивного принуждения, как обсуждалось ранее, это просто означает, кто наблюдает за наблюдателем?

Чтобы решить эту проблему, мы можем разделить управление рабочим процессом над группой; При любых изменениях в рабочем процессе группа всегда должна соглашаться отражать такие изменения.

Влияние структурированной прозрачности

Академическое исследование

В сфере здравоохранения обмен данными о пациентах очень чувствителен, поэтому системы здравоохранения очень цинично относятся к обмену своими данными с исследователями, из-за этого в исследованиях и разработках в этой области есть недостатки.

Но если мы посмотрим на это наглядно, исследователям на самом деле не нужны данные, им нужен набор результатов (понимание, статистика) для их исследования.

Благодаря структурированной прозрачности мы можем отменить решение о том, предоставлять ли данные или нет. Это дает право владельцу данных управлять своими данными, предотвращая, таким образом, проблемы с копированием и объединением.

При проверке ввода владелец данных может предоставить исследователю некоторые атрибуты данных, а при проверке вывода; мы можем проверить вычисленную статистику, требуемую исследователем. А благодаря управлению потоком высокочувствительные данные по-прежнему могут быть доступны для исследования от различных надежных распространителей данных.

НИОКР

Например, используя системы здравоохранения, частные компании могут пожелать разработать новые алгоритмы, но этот алгоритм необходимо проверить, чтобы предотвратить несчастные случаи, и этот процесс проверки алгоритма может занять около 16 месяцев или более.

Кроме того, централизованные данные о здравоохранении для разработки новых алгоритмов недопустимы и могут привести к утечке данных.

С помощью инструментов структурированной прозрачности мы можем ускорить проверку новых алгоритмов и в то же время защитить необходимые данные.

Кроме того, использование таких инструментов, как федеративное обучение, исключает использование централизованного хранилища данных, поэтому новый алгоритм можно обучить на нескольких частных данных о состоянии здоровья, и для использования будет получен только обученный вес модели.

СМИ

Структурированная прозрачность очень поможет средствам массовой информации, поскольку они борются с фальшивыми новостями, проверкой источников и т. Д. Хотя средства массовой информации имеют эту структурированную прозрачность вручную;

Например, как они обеспечивают конфиденциальность ввода и вывода, защищают источник и формируют вывод новостей, а также предотвращают идентификацию источника ввода. Они обеспечивают проверку ввода, свидетельствуя, что источник заслуживает доверия, а для проверки вывода журналист подвергается воздействию редактора и рецензента, чтобы посмотреть, можно ли это опубликовать.

Этот ручной подход содержит противоречия, и с помощью структурированной прозрачности мы можем спроектировать рабочий процесс, который устраняет эти трения. Например, глядя на аспект проверки ввода фальшивого новостного видео (глубокого фейка), мы можем решить эту проблему, присвоив видео криптографическую подпись камеры, это может гарантировать, что все видео проверены, и может легко обнаружить фальшивые.

Стартапы с машинным обучением

Данные являются основной основой любого стартапа с машинным обучением, и получить данные сложно, но с помощью сети федеративных данных стартапы могут получить легкий доступ к данным для экспериментов, фактически не имея их копии.

Структурированные институты прозрачности потребностей потребителей

Бюджетирование конфиденциальности - это объем утечки, допускаемый владельцами данных. Эта утечка измеряется метрикой эпсилон.

Для потребителя, данные которого принадлежат двум разным продавцам данных, и если оба продавца данных продают примерно 20% данных потребителя каждый, у потребителя происходит утечка около 40% данных, что плохо и вредно. Как мы можем этого предотвратить:

Один из способов предотвратить это - продавцы данных продавать данные вместо копии данных на эпсилон. Хотя это понимание можно реконструировать, чтобы сформировать все данные о потребителях.

Чтобы предотвратить быструю реконструкцию данных, мы можем сделать эпсилон дефицитным ресурсом, то есть тем меньше будет повышение его цены, здесь действует закон спроса и предложения.

Кроме того, это можно защитить, сделав эпсилон ориентированным на человека, что помогает регулировать объем данных о потребителях, которые в целом могут быть утечки разными продавцами данных.

Интеллектуальные, статистические службы и регуляторы

Благодаря структурированной прозрачности мы можем регулировать, как правительственная разведка использует наши данные.

Существуют сценарии, когда правительство может искать плохого парня и хотело бы запросить базу данных пользователей у компании в поисках плохого парня, и при этом они не хотят раскрывать, кто такой плохой парень.

Этот процесс может нарушить данные других пользователей, поскольку у них есть доступ ко всей другой информации, кроме информации злоумышленника, но с гомоморфным шифрованием можно извлечь необходимые данные, не нарушая данные других пользователей.