Управление рисками в больших данных, часть 5: Маркировка данных и понимание рисков

В предыдущем блоге мы рассмотрели 4 шага для эффективного управления рисками в средах больших данных. Традиционных методов защиты периметра недостаточно, предприятиям нужна другая стратегия для обеспечения контроля и доверия к своим средам данных.

Первым шагом в этом процессе является понимание данных и точная классификация (маркировка) конфиденциальных данных. Без надлежащей классификации данных компании рискуют превратить озера данных в болота данных.

Почему важна классификация данных?

Классификация и маркировка данных — это основа управления данными. Классификация данных также может помочь специалистам по обработке данных точно выявлять риски, связанные с их данными.

Выявление конфиденциальных данных — непростая задача. Озера данных создают некоторые проблемы в этом отношении.

Несколько источников данных. Озера данных, современная форма хранилища данных, могут иметь несколько источников данных. Каждый источник может иметь свой формат и качество данных.
Разнообразие данных. Данные из существующих хранилищ данных или баз данных являются структурированными данными. Данные из файлов, социальных сетей и других источников могут не иметь схемы или структуры. Команды безопасности могут знать о конфиденциальных данных в базах данных, но не иметь доступа к неструктурированным данным из каналов социальных сетей или документов, отправленных третьей стороной.
Конфиденциальные данные могут быть созданы пользователями. Теперь доступны мощные инструменты преобразования данных, дающие пользователям возможность комбинировать наборы данных и создавать потенциально конфиденциальные данные из комбинации других данных.

Чем может помочь Privacera?

Механизм обнаружения Privacera помогает предприятиям точно обнаруживать обнаружение конфиденциальных данных в Hadoop, Hive и других средах больших данных.

Модуль обнаружения Privacera может обнаруживать и маркировать данные по мере их поступления, а также в состоянии покоя.

Privacera включает в свой механизм обнаружения более 60 правил для различной личной информации и других атрибутов конфиденциальных данных в различных отраслях. Наряду с этими правилами Privacera также использует методы машинного обучения и НЛП для анализа контекста. Это помогает уменьшить количество ложных срабатываний и повысить уровень доверия к машинной классификации.

Каков результат?

Цель процесса обнаружения — пометить данные или создать метаданные. Давайте использовать приведенную ниже таблицу в качестве примера. Таблица существует в базе данных под названием «больница» и таблица под названием «пациенты».

Privacera может сканировать эту таблицу и создавать теги для каждого столбца, которые будут выглядеть следующим образом.

По сути, имя и адрес электронной почты классифицируются как «PII», что является отраслевым термином для информации, позволяющей установить личность. Номер медицинской карты (MRN) классифицируется как «PHI» (защищенная медицинская информация).

Privacera также может сканировать документы и другие формы неструктурированных данных. Давайте посмотрим на приведенный ниже документ «letter.txt» (имена, адреса и другая информация в приведенном ниже письме не соответствуют действительности).

Решение для обнаружения Privacera может обнаруживать содержимое в документе и идентифицировать конфиденциальные данные. Вот как будут выглядеть метаданные для этого документа.

За капотом Privacera применяет машинное обучение, НЛП и другие методы для точной идентификации данных и применения правильной классификации/метки. Privacera использует результаты обнаружения, чтобы предоставить CXO информацию о том, где хранятся конфиденциальные данные. Privacera также использует метаданные для обеспечения лучшего контроля и мониторинга.

Если вы реализовали автоматическую классификацию данных в своей среде, поздравляем вас с первым шагом на пути к улучшению безопасности и управления! Мы хотели бы услышать от вас о вашем опыте со всем процессом.

В следующем блоге мы расскажем, как ИТ-специалисты и специалисты по обработке данных могут организовать контроль доступа на основе конфиденциальности данных.

Управление рисками в больших данных, часть 5: Маркировка данных и понимание рисков

Вопросы по теме