Защита конфиденциальных данных на всех этапах рабочего процесса обработки данных становится все более важной: утечки данных становятся все дороже, ценные активы могут быть потеряны, а правила ужесточаются. Проекты терпят неудачу или никогда не запускаются, потому что данные не могут быть доступны безопасно.

Распространенный способ снизить этот риск - создать более безопасную версию набора данных. Это достигается за счет применения метода, называемого маскированием данных. Это устаревший набор инструментов, используемый для сохранения конфиденциальности данных при предоставлении специалистам по обработке данных доступа к конфиденциальным данным. Тем не менее, его ограничения затрудняют достижение целей как защиты данных, так и науки о данных:

  • У него слабые свойства защиты данных, поэтому риски конфиденциальности не принимаются.
  • Это может нанести ущерб значению данных, влияющему на качество модели.
  • Его внедрение и управление обходятся дорого из-за нормативных ограничений.

Мы рассмотрим, как работает маскирование данных, и объясним его ограничения. Мы также предложим альтернативный подход, который использует методы обучения с сохранением конфиденциальности, чтобы устранить необходимость в маскировке данных и предложить как более высокий уровень защиты данных, так и потенциал для более продвинутых моделей.

Как работает маскирование данных

Маскирование данных означает изменение полей таким образом, чтобы затруднить привязку записи к отдельному человеку. Существует несколько методов, но все они преследуют одну из двух целей: уменьшение возможности связывания или снижение точности.

Снижение возможности связывания

Это направлено на предотвращение связывания человека с внешней базой данных при сохранении возможности связывания между записями в базе данных. Это часто называется псевдонимизацией и обычно достигается за счет шифрования или хеширования.

Снижение точности

Для этого нужно сделать поле менее точным, чтобы снизить вероятность обнаружения человека. Этого можно добиться двумя основными способами:

  • Удалите точность, используя такие методы, как усечение или обобщение (например, замена дат рождения годами рождения). Поскольку многие записи могут иметь одно и то же значение, это помогает при дальнейшей агрегации в реляционной базе данных.
  • Добавьте шум к значению (например: добавьте случайное количество дней к дате рождения).

Обратите внимание, что с точки зрения получателя данных удаление точности и добавление шума очень похожи, поскольку информация намеренно ухудшается. Меньше информации затрудняет повторную идентификацию, но также снижает полезность данных. Разработка стратегии маскирования данных предполагает решение этого компромисса.

Давайте воспользуемся некоторыми примерами данных, чтобы вникнуть и посмотреть, как это работает на практике.

Пример использования данных о мобильности

Предположим, мы работаем над генеральным планом нашего города и планируем создать новые автобусные маршруты с особым упором на неблагополучные районы. Мы хотим использовать базу данных о поездках компании, занимающейся вызовом пассажиров, чтобы лучше понять потребность в мобильности. Компания по вызову пассажиров соглашается делиться данными только в том случае, если они полностью анонимны. Они реализуют следующую стратегию маскирования данных:

Field        | Original value   | New value     | Technique
-------------+------------------+---------------+------------------
Full Name    | Jane Smith       | c38a81f7      | Pseudonymization
-------------+------------------+---------------+------------------Pick-up time | 7/4/2020 10:21am | 7/4/2020 10am | Truncation
-------------+------------------+---------------+------------------Pick-up      | 55 Water St,     | Financial     | Generalization
             | New York, NY     | District, NYC |
-------------+------------------+---------------+------------------Drop-off     | 130 Prince St,   | SoHo, NYC     | Generalization
             | New York, NY     |               |
-------------+------------------+---------------+------------------Price paid   | $14.50           | $14.50        | Unchanged

Чего мы можем достичь с помощью нашего набора данных

Для исследований высокого уровня это ценный актив. Мы можем изучить размер рынка, тенденции на ежедневных маршрутах или влияние цен на пробки.

Недостатки нашей стратегии маскировки

Альтернативная стоимость. Расширенные модели теперь недоступны, например:

  • Разработайте оптимальный автобусный маршрут или разместите автобусные остановки. Усечение локаций не позволяет нам точно позиционировать что-либо.
  • Предлагайте лучшие варианты для людей с особыми потребностями: псевдонимизация предотвращает связывание записей с базой данных города.

Слабая конфиденциальность. Хотя мы не можем найти людей по их имени или адресу, все же есть способы идентифицировать кого-то, у кого есть дополнительные сведения о человеке. Если мы знаем время нескольких поездок домой от человека, мы, вероятно, могли бы выделить их и узнать обо всех их поездках. Менеджер, утверждающий расходы сотрудников, может сделать вывод обо всех их поездках, используя только стоимость проезда, время и высадку из одного отчета о расходах. Существует бесчисленное множество возможных атак повторной идентификации.

Основные ограничения маскировки данных

Трудно сказать, насколько он обеспечивает защиту данных.

Маскирование данных неявно предполагает наличие простого злоумышленника, который ищет поля, для которых очевидна связь с человеком (например, имя, номер социального страхования, адрес). Он эффективно защищает от этих атак с помощью простой эвристики, такой как удаление 18 идентификаторов в методе HIPAA.

Но любая оставшаяся часть информации может привести к повторной идентификации в сочетании с внешней информацией. Злоумышленник может использовать общедоступную или частную информацию, в том числе информацию, которая будет доступна в будущем! В печально известном случае с Netflix пользователи были повторно идентифицированы по фильмам, которые они смотрели, а не по именам или адресам.

Маскирование данных не дает рекомендаций о том, как бороться с этим разнообразием атак. Это делает маловероятным, что будет найден хороший компромисс между полезностью и защитой. Это цена отсутствия надежной теории защиты данных.

Это неадекватно для неструктурированных или многомерных данных.

Проблема становится еще более острой с данными большого размера, поскольку чем больше информации остается в наборе данных, тем слабее защита данных. Небольшие табличные наборы данных могут быть управляемыми - хотя в нашем примере это не удалось быстро, - но в более богатых наборах данных сохранение конфиденциальности и выпуск полезного набора данных кажется недосягаемым. Вот примеры, когда измененные данные нельзя было считать анонимными с помощью стандартных методов маскирования данных:

  • В ДНК есть миллиарды нуклеотидных пар, которые можно сопоставить с индивидуумами, используя генеалогию или выражение в фенотипах (изображения действительно показывают ДНК!)
  • Длинные истории местоположений легко сопоставляются с общедоступной информацией, например сообщениями в социальных сетях.
  • Сообщения содержат много подсказок об авторе, например, частоту слов или синтаксис (кто бы упомянул Sarus Technologies в 2019 году?).

Кроме того, методы маскирования данных нелегко применить к менее структурированным данным, таким как произвольный текст, аудиозаписи или история следов GPS. С этими типами данных фильтрация полей по одному не имеет особого смысла. Чтобы иметь дело с любыми конфиденциальными данными, проблему нужно решать на более высоком уровне.

Управление правилами маскирования данных обходится дорого

Маскирование данных может занять много времени и быть рискованным. В зависимости от целей маскирование поля может быть безразличным или запретительным; остаточный риск может варьироваться от приемлемого до недопустимого в зависимости от того, кто использует данные. Команды комплаенс должны работать с научными и инженерными группами, чтобы найти подходящий баланс между риском, комплаенс и полезностью. И это верно для каждого нового проекта данных. Можно потерять много времени, и многие проекты никогда не будут реализованы, если не удастся найти баланс. Это препятствует инновациям и обучению.

Новый подход к обеспечению безопасности данных

Были предложены некоторые улучшения маскировки данных для усиления защиты данных. Такие методы, как k-анонимность или l-разнообразие, обеспечивают большую конфиденциальность, но за счет растущей сложности. И они по-прежнему не устраняют ограничения на более обширные типы данных.

С Sarus мы радикально изменили подход к обучению на конфиденциальных данных. Вместо того, чтобы пытаться выпустить «более безопасную» версию данных, мы сохраняем исходные данные нетронутыми и позволяем специалистам по обработке данных работать с ними удаленно. Мы больше не сосредотачиваемся на том, чтобы гарантировать, что люди не могут быть найдены в наборах данных, что становится экспоненциально трудным по мере роста данных. Вместо этого мы инвестируем в то, чтобы скрыть людей в результатах учебного процесса, что и проще, и эффективнее. Это полностью устраняет необходимость в маскировке данных.

Как работает Сарус

Компании устанавливают Sarus в свои инфраструктуры и открывают безопасный шлюз для специалистов по данным для дистанционного обучения моделей. Работа с неизмененным набором данных гарантирует, что специалисты по данным могут извлечь все полезные данные. Sarus реализует дифференциальную конфиденциальность для всех взаимодействий, поэтому защита данных сохраняется независимо от типов данных и вариантов использования. После установки Sarus отпадает необходимость в оценке соответствия на уровне проекта, что позволяет сэкономить драгоценное время на инновации.

В Sarus нет необходимости в маскировании данных, и его ограничения устраняются следующим образом:

  • Лучшая защита данных: Sarus применяет Дифференциальную конфиденциальность для всех взаимодействий, что обеспечивает объективную и надежную основу для измерения риска конфиденциальности.
  • Использовать все данные. Сосредоточившись на том, чтобы сделать процесс обучения анонимным, а не анонимными исходными данными, Sarus позволяет изучать все структуры данных. Таким образом, защита данных гарантирует сохранение независимо от типов данных и вариантов использования.
  • Более быстрые процессы. В управлении специальным набором правил для каждого проекта нет необходимости, поскольку единый подход обеспечивает максимальную защиту данных во всех приложениях. Группы обработки данных экономят драгоценное время на инновации.

В нашем примере данных о мобильности, если бы компания, занимающаяся вызовом пассажиров, установила Sarus, команда генерального плана смогла бы извлекать уроки из разоблаченных данных без риска утечки личной информации. Они бы достигли всех своих целей без ущерба для частной жизни людей.

В Sarus мы считаем, что более быстрое использование большего количества данных имеет решающее значение для успешных инноваций, но это не должно происходить за счет конфиденциальности.

Для получения дополнительной информации посетите sarus.tech.

Sarus разрабатывает решения по сохранению конфиденциальности для ускорения инноваций и совместной работы с данными с более надежной защитой данных. С помощью Sarus специалисты по работе с данными могут безопасно работать с полными наборами данных, которые когда-то были недоступны, создавая возможности для новых приложений.