В предыдущем блоге я рассказал об основных аспектах развертывания решения для машинного обучения и об архитектуре облачного вывода. Ссылка здесь:



Что еще оставалось, так это компоненты, связанные с требованием MLOps, такие как безопасность, ведение журнала, мониторинг и т. д. Учитывая, что наша текущая архитектура основана на облаке AWS, давайте рассмотрим компоненты, которые могут помочь нам в этих областях:

Ведение журнала и мониторинг

  1. Amazon CloudWatch используется для мониторинга следующих аспектов инфраструктуры в режиме реального времени:

Записывает журналы различных сервисов AWS, таких как S3, Kinesis, Sagemaker, Lambda и т. д., для анализа использования ресурсов и затрат

Он может визуализировать использование ресурсов каждой службой и устанавливать сигналы тревоги на основе шаблонов журнала.

2. Amazon CloudTrail регистрирует и отслеживает все действия, выполняемые в учетной записи AWS. Это важно, поскольку аудит должен отвечать на такие вопросы, как: какие действия, кто выполнял, какие ресурсы использовались и т. д.

Безопасность и соответствие

  1. Для соответствия правилам данных (GDPR) мы создали пользовательскую функцию PII перед обучением модели.
  2. AWS S3, Lambda, Sagemaker: все хранят неактивные данные в зашифрованном формате, а S3 также позволяет версионировать данные, если это требуется для аудита.
  3. AWS Identity and Access Management (IAM) предоставляет пользователям средства управления доступом к ресурсам AWS. Доступ пользователей к AWS (аутентификация) и авторизация для ресурсов и политики их использования могут быть определены с помощью IAM.

Другие требования

  1. Решение создается в виртуальном частном облаке AWS на основе нашего определения. Он имеет преимущество масштабируемости
  2. Высокая доступность. Области VPC создаются в 2 зонах доступности, чтобы обеспечить поддержку потребностей в высокой доступности.

Помимо этих требований другим аспектом является Мониторинг качества и переобучение. Поток данных на диаграмме ниже объясняет, как это можно реализовать.

  1. Мониторинг качества данных: создавайте базовую статистику из обучающих данных для последующего сравнения с входящими данными.
  2. Входящие данные в производственной среде сравниваются с профилем, созданным на основе обучающих данных на наличие нарушений.
  3. AWS CloudWatch может инициировать уведомление пользователя о смещении
  4. Переобучение модели запускается вручную с использованием обновленных обучающих данных.
  5. Задача мониторинга качества модели вычисляет показатели производительности модели на основе фактических и прогнозируемых значений.
  6. Модели и связанные с ними артефакты хранятся в реестре моделей и после утверждения используются для логического вывода в реальном времени.

Это был краткий обзор того, как можно представить сквозную архитектуру машинного обучения в облачной среде AWS. Я уверен, что могут быть лучшие способы взглянуть на это, и я буду рад получить любые критические отзывы для улучшения.