В предыдущем блоге я рассказал об основных аспектах развертывания решения для машинного обучения и об архитектуре облачного вывода. Ссылка здесь:
Что еще оставалось, так это компоненты, связанные с требованием MLOps, такие как безопасность, ведение журнала, мониторинг и т. д. Учитывая, что наша текущая архитектура основана на облаке AWS, давайте рассмотрим компоненты, которые могут помочь нам в этих областях:
Ведение журнала и мониторинг
- Amazon CloudWatch используется для мониторинга следующих аспектов инфраструктуры в режиме реального времени:
Записывает журналы различных сервисов AWS, таких как S3, Kinesis, Sagemaker, Lambda и т. д., для анализа использования ресурсов и затрат
Он может визуализировать использование ресурсов каждой службой и устанавливать сигналы тревоги на основе шаблонов журнала.
2. Amazon CloudTrail регистрирует и отслеживает все действия, выполняемые в учетной записи AWS. Это важно, поскольку аудит должен отвечать на такие вопросы, как: какие действия, кто выполнял, какие ресурсы использовались и т. д.
Безопасность и соответствие
- Для соответствия правилам данных (GDPR) мы создали пользовательскую функцию PII перед обучением модели.
- AWS S3, Lambda, Sagemaker: все хранят неактивные данные в зашифрованном формате, а S3 также позволяет версионировать данные, если это требуется для аудита.
- AWS Identity and Access Management (IAM) предоставляет пользователям средства управления доступом к ресурсам AWS. Доступ пользователей к AWS (аутентификация) и авторизация для ресурсов и политики их использования могут быть определены с помощью IAM.
Другие требования
- Решение создается в виртуальном частном облаке AWS на основе нашего определения. Он имеет преимущество масштабируемости
- Высокая доступность. Области VPC создаются в 2 зонах доступности, чтобы обеспечить поддержку потребностей в высокой доступности.
Помимо этих требований другим аспектом является Мониторинг качества и переобучение. Поток данных на диаграмме ниже объясняет, как это можно реализовать.
- Мониторинг качества данных: создавайте базовую статистику из обучающих данных для последующего сравнения с входящими данными.
- Входящие данные в производственной среде сравниваются с профилем, созданным на основе обучающих данных на наличие нарушений.
- AWS CloudWatch может инициировать уведомление пользователя о смещении
- Переобучение модели запускается вручную с использованием обновленных обучающих данных.
- Задача мониторинга качества модели вычисляет показатели производительности модели на основе фактических и прогнозируемых значений.
- Модели и связанные с ними артефакты хранятся в реестре моделей и после утверждения используются для логического вывода в реальном времени.
Это был краткий обзор того, как можно представить сквозную архитектуру машинного обучения в облачной среде AWS. Я уверен, что могут быть лучшие способы взглянуть на это, и я буду рад получить любые критические отзывы для улучшения.