Сегодня среда, в которой работают компании, постоянно меняется из-за появления новых рынков, поведения клиентов и новых норм. То же самое относится и к данным, генерируемым из этих динамических сред. Созданные и развернутые модели машинного обучения работают с динамически изменяющимися данными. Скорее производственные данные, на которых работают модели, постоянно меняются. Это то, что называется дрейфом данных. Дрейф данных может происходить по разным причинам, включая проблемы с качеством данных, изменения в составе функций и даже изменения в контексте целевой переменной, такие как изменение предпочтений клиентов из-за пандемии, запуск продукта на новом рынке, стихийные бедствия.

Поскольку постоянно меняющиеся данные влияют на вывод о модели. Модель не сможет поддерживать ту же точность и прогностическую силу. Скорее производительность модели не будет прежней и ухудшится, так как построенная модель показательна в состоянии и времени разработки. Это то, что называется дрейфом модели.

Дрейф концепции в первую очередь относится к тому, когда отношение между входными данными и целевой переменной изменяется с течением времени непредвиденным образом. Скорее это явление, при котором статистические свойства целевого домена меняются с течением времени произвольным образом. Это основная причина снижения эффективности многих моделей машинного обучения.

Как мы видим, дрейфы могут быть вызваны непредвиденными событиями, которые мы не можем вообразить и контролировать. Это может быть связано с обучающими данными или невидимыми данными. Недавняя пандемия стала серьезным выбросом, из-за которого модели, которые были обучены и развернуты до COVID, не работали во время и после COVID. Прогнозы модели машинного обучения ухудшились из-за дрейфа данных. По мере того, как поведение клиентов, потребности и требования менялись, а цепочки поставок нарушались из-за пандемий. Это требует от компании переобучения моделей с учетом новых нормальных данных.

Оглядываясь назад, можно сказать, что в рамках жизненного цикла машинного обучения для организаций после развертывания модели очень важно отслеживать и обнаруживать эти дрейфы в динамически изменяющихся средах данных. Достаточно не только обнаружить эти дрейфы, но и разработать стратегию их устранения.

  • Переподготовка и принятие необходимых корректирующих мер с учетом надлежащего процесса
  • Создавайте обобщающие модели с учетом подобных отклонений
  • Устранение предвзятости данных при обучении моделей.
  • Соберите обучающие данные, отражающие проблему, из всех возможных источников.
  • Избегайте перестроения всех моделей

В будущих блогах я буду говорить о различных методах и инструментах, доступных для мониторинга различных аспектов развернутой модели, а также о том, как перестроить модель без полного переобучения, поскольку это требует вычислительных затрат.