В связи с бумом искусственного интеллекта и машинного обучения, поддерживаемым надежной облачной экосистемой, возникшей за последние 18–24 месяца, многие организации находятся на ранних этапах внедрения и интеграции инфраструктуры машинного обучения со своими решениями. Организации видят огромную ценность в прохождении этого пути, поскольку они видят в нем будущее в постпандемическом мире. Сказав это, не менее важно помнить о безопасности и конфиденциальности данных при преобразовании обычного бизнес-решения в решение на основе ИИ. Здесь я представляю краткий и краткий обзор основных соображений риска безопасности, которые необходимо минимизировать при разработке гибкого решения на основе AI/ML.

Угроза отравления данных

Данные играют ключевую роль в безопасности и общем качестве системы машинного обучения. Это потому, что система машинного обучения учится делать то, что она делает, на основе входных данных. Если злоумышленник может намеренно скоординировано манипулировать входными данными, используемыми системой машинного обучения, вся система может быть скомпрометирована, а результаты впредь станут ненадежными и неверными. Атаки с отравлением данных требуют особого внимания. В частности, инженеры машинного обучения должны учитывать, какую часть обучающих данных злоумышленник может контролировать и в какой степени.

Существует несколько источников данных, которые подвергаются отравлению, когда злоумышленник преднамеренно манипулирует данными, включая необработанные данные в мире и наборы данных, которые собираются для обучения, тестирования и проверки системы ML, возможно, скоординированным образом, чтобы вызвать обучение ML. пойти наперекосяк. В некотором смысле это риск, связанный как с конфиденциальностью данных, так и с тем фактом, что сами данные имеют такое большое значение в системе машинного обучения.

Вмешательство и манипулирование онлайн-системой

Говорят, что система ML находится «в сети», когда она продолжает обучаться в режиме реального времени во время оперативного использования, тем самым изменяя свое поведение с течением времени. Целью этого является постоянное развитие системы с акцентом на улучшение. В этом случае умный злоумышленник может намеренно обмануть все еще обучающуюся систему в неправильном направлении с помощью системного ввода и медленно и постепенно «переучивать» систему машинного обучения делать неправильные вещи. Обратите внимание, что такая атака может быть как незаметной, так и достаточно простой в осуществлении. Это сложный риск, требующий, чтобы инженеры машинного обучения учитывали происхождение данных, выбор алгоритма и системные операции, чтобы должным образом справиться с ним.

Трансферная атака

Также известные как Атаки с передачей обучения, многие системы машинного обучения строятся путем настройки уже обученной базовой модели таким образом, чтобы ее несколько общие возможности настраивались с помощью цикла специализированного обучения. Это использует преимущества многоразового дизайна. Атака передачи представляет собой серьезный риск в этой ситуации. В тех случаях, когда предварительно обученная модель широко доступна, злоумышленник может разработать атаки, используя ее, которые будут достаточно надежными, чтобы преуспеть в вашей (недоступной для злоумышленника) настроенной модели для конкретной задачи. Знание базовой модели, особенно если она находится в открытом доступе, дает злоумышленнику широкие возможности опробовать различные сценарии атаки и наилучшим образом оптимизировать план атаки против вашей системы. Вы также должны подумать, не может ли система машинного обучения, которую вы настраиваете, быть трояном, который включает в себя скрытое поведение машинного обучения, которое непредвиденно.

Системы ML намеренно повторно используются в ситуациях передачи. Применяется риск передачи не по назначению. Как правило, ожидается, что авторы/организации, публикующие модели для передачи, должны точно описать, что делают их системы и как они контролируют риски, в хорошо разработанной четкой схеме.

Конфиденциальность данных

Защита данных достаточно сложна и без машинного обучения. Одной из уникальных задач машинного обучения является защита важных или конфиденциальных данных, которые в результате обучения встраиваются прямо в модель. Тонкие, но эффективные атаки с извлечением данных системы машинного обучения являются важной категорией риска.

Сохранение конфиденциальности данных в системе машинного обучения является более сложной задачей, чем в стандартной вычислительной ситуации. Это связано с тем, что система машинного обучения, которая обучена работе с конфиденциальными или конфиденциальными данными, будет иметь некоторые аспекты этих данных, встроенные прямо в нее посредством обучения. Атаки с целью извлечения важной и конфиденциальной информации из систем машинного обучения (косвенно при обычном использовании) хорошо известны. Обратите внимание, что даже субсимвольное извлечение «признаков» может быть полезным, поскольку его можно использовать для оттачивания состязательных входных атак. Поэтому рекомендуется применять элементы управления защитой данных в состоянии покоя, которые включают в себя такие вещи, как шифрование, контроль доступа и доступ к данным на основе ролей.

Безопасность приложений и инфраструктуры

Помимо основных алгоритмов обучения и данных, другой ключевой частью любого решения на основе AI / ML является базовое приложение и инфраструктура, на которой оно размещено. Это выдвигает на передний план стандартные методы обеспечения безопасности приложений, которые необходимо внедрить, по сути, решение 10 основных проблем безопасности OWASP является хорошей отправной точкой. Также стоит приложить усилия, чтобы провести специальный и посвященный сеанс моделирования угроз, посвященный дизайну приложения и размещению.

Базовая инфраструктура должна быть защищена по своей конструкции, и следует позаботиться о защите любого типа используемых ключей API или общего секрета. Помимо этого, параметры конфигурации и безопасность конечной точки (Защита данных в движении / AuthN и AuthZ) являются другими ключевыми областями.