4 требования для создания современной службы классификации данных

Почему классификация данных?

Конфиденциальность данных имеет первостепенное значение для каждой организации, и люди хотят быть уверенными в том, что их данные в безопасности в любое время. В связи с постоянно растущим числом облачных приложений, представленных сегодня на рынке, специалисты по безопасности сталкиваются с проблемой отслеживания увеличивающихся объемов конфиденциальных данных, которые могут передаваться внутри, снаружи и между системами.

С точки зрения безопасности и соответствия требованиям, безопасность данных и управление ими все чаще становятся головной болью. Мало того, что клиенты могут отправлять любой объем конфиденциальной информации с помощью множества инструментов — заявок в службу поддержки, мессенджеров, электронных писем, проприетарного программного обеспечения — но эта информация часто передается в дополнительные внутренние системы, когда команды пытаются оказать поддержку. Инструменты, доступные для оптимизации защиты данных, стали разбросанными и разрозненными, поскольку каждый инструмент ограничен по количеству приложений, которые он может охватывать, в результате чего командам по безопасности приходится покупать и управлять несколькими решениями безопасности для защиты нескольких приложений. Это приводит к операционным накладным расходам, высоким затратам и, что наиболее важно, к непоследовательности в применении политик — в конечном счете, к резкому ухудшению внутренних передовых практик.

Мы в Nightfall рано узнали — от наших клиентов и собственного опыта в области безопасности данных — что проблема безопасности облачных данных на самом деле является проблемой проверки содержимого данных. Команды безопасности должны легко выявлять и удалять (или управлять) конфиденциальный контент во всех своих приложениях. Если данные точно обнаруживаются и классифицируются, командам по безопасности можно не заниматься обширными упражнениями по отображению данных в тысячах таблиц, приложений и систем, просто чтобы выяснить, где находятся конфиденциальные данные.

Если проверка контента единообразно применяется к облачным средам организации, группы безопасности могут использовать только один инструмент для обнаружения и исправления конфиденциальных данных из всех своих приложений. Этого можно добиться с помощью хорошо разработанных систем классификации данных.

Однако создание высококачественных систем классификации данных — не просто увлекательная инженерная задача, это еще и невероятно сложная задача.

Классификацию данных можно разбить на две основные формулировки проблемы:

Проблема больших данных: как мы обучаем и поддерживаем высокоточные модели обнаружения в больших масштабах?
Проблема распределенных систем: как мы обрабатываем данные во время обнаружения в масштабе?

При подходе к этим проблемам необходимо учитывать четыре ключевые области:

Создание детекторов высокой точности
Развертывание и масштабирование моделей на основе машинного обучения
Парсинг файлов и неструктурированных данных
Работа с огромным объемом данных

1. Создание высокоточных детекторов

Ключевым фактором является точность проверки содержимого.

Команды безопасности завалены морем предупреждений, а усталость от предупреждений приводит к потере чувствительности и бездействию. Детектор с низкой точностью может представлять значительный риск для безопасности и соответствия требованиям для конечных пользователей. Высокий уровень ложноположительных результатов может привести к утомлению бдительности, что в конечном итоге снизит вероятность исправления истинного положительного результата. В некоторых случаях детектор элементарного уровня может быть более опасным, чем полное отсутствие детектора, поскольку он может создать ложное чувство безопасности у службы безопасности.

Но, с другой стороны, если происходит утечка конфиденциальных данных, это может быть дорогостоящей проблемой безопасности с серьезным негативным влиянием на финансы, ресурсы и репутацию компании.

Поэтому службам безопасности нужны оповещения с низким уровнем шума и высокой надежностью.

Требуется значительный объем исследований и работы НЛП, чтобы вывести на рынок детектор с достаточно высокой точностью, которая соответствовала бы ожиданиям клиентов.

Традиционные методы обнаружения данных включают регулярные выражения («регулярные выражения»), высокую энтропию и снятие отпечатков пальцев. Некоторые из этих методов до сих пор являются предметом обширных исследований. Например, языковая модель представляет собой неполный статистический вывод огромного количества текстовых данных, что затрудняет применение энтропийных методов в каждом варианте использования или сценарии. Кроме того, эти решения ненадежны, поскольку они не основаны на семантике и могут легко выйти из строя по замыслу или быть преднамеренно обойденными. Решения, основанные на семантике, более точны, поскольку они учитывают значение фраз, а не основаны исключительно на шаблонах. Пример семантического сопоставления: `US DL` == `Водительские права США` == `Водительские права`. Эти фразы эквивалентны по смыслу, но написаны по-разному, что может привести к нарушению сопоставления регулярных выражений.

Методы, основанные на машинном обучении (ML), являются более современными и могут давать гораздо более точные результаты, поскольку они могут лучше улавливать контекст и извлекать семантику из токенов или символов. К сожалению, они также требуют сбора и аннотирования массивных наборов конфиденциальных данных. По данным Synced Review, стоимость обучения самых передовых нейронных сетей обработки естественного языка (NLP) с нуля оценивается в десятки-сотни тысяч долларов и более. Даже после обучения самые продвинутые модели НЛП могут быть ограничены тем, насколько хорошо они могут работать с определенными текстовыми форматами. Табличные данные вводят дополнительные требования для достижения хорошего уровня производительности. Чаще всего проверяемым данным может не хватать контекста, в котором обычно превосходят новейшие передовые нейронные сети.

В дополнение к необходимости больших наборов данных для обучения моделей детекторов на основе машинного обучения точность детектора также требует оперативной поддержки для текущего обслуживания и настройки — интерпретации результатов, обработки и отладки проблем обнаружения, обучения модели ложным срабатываниям и отрицательным результатам и т. д. Чтобы использовать канонический пример DLP, детектор номеров кредитных карт имеет несколько точек проверки, таких как проверка того, что их номера идентификаторов эмитента соответствуют ISO/IEC 7812. Представьте себе управление географическими и отраслевыми детекторами по всему миру — будьте в курсе государственных веб-сайтов и отраслевых/торговых членств и даже обращайтесь к местным агентствам для сопоставления информации о формате.

2. Развертывание и масштабирование моделей машинного обучения

Создание систем предотвращения потери данных («DLP») на основе машинного обучения с малой задержкой, отказоустойчивостью и избыточностью — нетривиальная задача. Современные модели используют несколько параметров, которые увеличивают время обработки, тем самым увеличивая задержки запросов на обнаружение. Поэтому крайне важно найти оптимальный баланс между количеством параметров в модели и результирующим временем отклика. Хотя некоторые из последних моделей могут быть настроены на определенные сценарии, они по-прежнему ограничены пространством сценариев, на которых проводилось их обучение (например, текстовый корпус Википедии или другие текстовые корпуса, которые большинство исследователей используют для проведения своих тестов). Большинство организаций имеют уникальные структуры данных, и любая полученная информация не будет отформатирована в соответствии с отраслевыми стандартами; это вводит проблему сдвига данных, делая модели нерелевантными для текущей задачи. Учитывая эти сложности, для получения наиболее точных результатов при минимальных затратах времени и ресурсов на обработку модели необходимо постоянно настраивать.

Кроме того, развертывание рабочих нагрузок с интенсивным использованием ЦП (особенно ориентированных на машинное обучение) требует программных инструментов и экспериментов с оборудованием для масштабирования, а также значительных финансовых вложений.

3. Разбор файлов и неструктурированных данных

Компании имеют дело с сотнями типов файлов — от электронных писем до документов, от электронных таблиц до презентаций, от изображений до PDF-файлов или даже от zip-файлов до проприетарных типов файлов.

Обычно текст из файлов или других типов неструктурированных данных извлекается для анализа содержимого и поиска конфиденциальной информации. Однако, даже когда текст может быть извлечен, контекст может быть потерян. Например, ячейки в CSV организованы в столбцы и строки; при извлечении в необработанный текст этот структурный контекст теряется, и данные, соответствующие определенным заголовкам столбцов или строк, больше не организованы таким образом, чтобы их можно было легко классифицировать.

Некоторые решения с открытым исходным кодом, такие как Apache Tika, могут помочь заполнить некоторые из этих пробелов. Однако наши собственные эксперименты показали, что эти решения, как правило, недостаточны, поскольку производительность/точность слишком низки для поддержки высоких показателей точности обнаружения и могут иметь проблемы с большими файлами. Компания Nightfall написала собственные обработчики файлов для анализа и понимания форматов файлов, чтобы повысить надежность, точность и масштабируемость нашей платформы. Для многих форматов файлов даже требуется специальная реализация извлечения текста, чтобы DLP была успешной.

4. Обработка огромных объемов данных

Проверка содержимого сотен типов сообщений и файлов во всех типах приложений, систем и баз данных может означать обработку сотен терабайт в день. Крайне важно построить двигатель, способный справиться с таким масштабом.

DLP является основной практикой безопасности — время безотказной работы и доступность должны быть бесперебойными, а системы должны быть отказоустойчивыми; события не могут быть удалены из-за временных сбоев.

Надежность. Модели, выполняющие проверку контента, должны быть хорошо обучены, а затем протестированы, чтобы убедиться, что они остаются точными и эффективными при использовании различных входных данных.
Доступность. Система должна масштабироваться с ростом нагрузки и иметь возможность поддерживать высокую продолжительность безотказной работы за счет автоматического тестирования, синих/зеленых развертываний и автоматического восстановления в случае сбоя оборудования.
Удобство обслуживания. Системы проверки контента — это живые и дышащие системы, которые необходимо настраивать и настраивать с течением времени: необходимо добавлять новые детекторы, отраслевые исследования должны обеспечивать точность, необходимо включать новые правила и т. д.

В Nightfall мы создали механизм обнаружения для параллельной обработки данных и сопоставления результатов в соответствии с SLA с малой задержкой. Мы сосредоточились на создании стабильной и масштабируемой системы, которая извлекает выгоду из общей нагрузки мультитенантности, а не простаивает вне периодов интенсивного использования.

Наши детекторы были оптимизированы для повышения эффективности, что позволяет Nightfall обрабатывать больше байтов в секунду с меньшими затратами, чем это было бы возможно без этой настройки.

Вот почему мы создали нашу платформу для разработчиков

С момента создания Nightfall мы узнали, что значит создавать и поддерживать высокоточный масштабируемый продукт DLP. Мы накопили опыт в отрасли, обучили и продолжаем обучать модели на основе NLP для наших детекторов, а также внедрили DLP как внутри компании, так и для наших клиентов. В процессе мы осознали, что не у всех или каждой компании есть время и ресурсы для разработки и поддержки высокоточного механизма проверки контента для интеграции в их собственные продукты или инструменты, поэтому мы решили вертикализовать DLP от начала до конца с помощью одного API. .

Войдите в Платформу разработчиков Nightfall. Мы занимаемся DLP, поэтому вы можете сосредоточиться на создании и масштабировании своего продукта.

Создание с помощью API-интерфейсов Nightfall позволяет вам использовать запатентованный механизм обнаружения Nightfall для проверки контента в вашем продукте или в любом из ваших приложений без необходимости создавать с нуля и поддерживать сложные модели.

Распространенные варианты использования:

Проверяйте содержимое где угодно, в любом хранилище данных или потоке данных.
Добавьте в свои приложения возможности DLP и классификации данных.
Обнаружение и деидентификация PII, PCI, PHI, учетных данных и секретов, пользовательских типов данных и многого другого.
Создавайте рабочие процессы соответствия HIPAA, PCI, GDPR, CCPA, FedRAMP и т. д.

Возможности:

Три уровня предложений услуг, включая бесплатный уровень для начала работы без каких-либо обязательств.
Простые в использовании API и SDK для популярных языков программирования, таких как Node.js, Python и Java.
Конечные точки для проверки текста и файлов, а также несколько методов редактирования.
Большая библиотека примеров, руководств, документации и поддержки.

Ознакомьтесь с нашими API Docs и Quickstart. Мы также включаем руководства и учебники, чтобы показать, как легко подключить платформу разработчика к часто запрашиваемым приложениям, таким как Airtable, Amazon S3 и Zendesk.

Если у вас есть какие-либо вопросы или вы просто хотите поговорить о работе, обратитесь к нашей команде по продуктам или присоединяйтесь к нам в Часы работы по средам с 12:00 до 13:00 по тихоокеанскому времени! Это интересные задачи, которые мы любим обсуждать и решать; вот почему мы здесь.