Как реализовать машинное обучение с бизнес-политикой и ИТ-системами

Для корпоративных приложений и автоматизации бизнеса машинное обучение (ML) редко используется изолированно. Развернутая модель машинного обучения почти всегда окружена политическим слоем или набором бизнес-правил, которые определяют, как она вызывается и как интерпретировать результаты. Подробнее о том, зачем нужны эти правила, читайте в предыдущей статье.

В результате у нас остается три в значительной степени независимых жизненных цикла, каждый из которых порождает новые версии по разным причинам:

Новые модели машинного обучения создаются, когда у нас появляются новые данные для обучения, когда специалисты по данным уточняют свои модели или применяют новые алгоритмы. Тем временем бизнес-аналитики уточняют бизнес-политику, управляют внедрением новых предложений или маркетинговыми акциями. Что касается ИТ, обновления происходят, когда вводятся новые системы, применяются новые технологии или разрабатываются новые версии приложений.

Как и ожидалось, поскольку Data Science, Business и IT - это отдельные отделы и разные роли, наша отрасль пришла к в значительной степени независимым решениям для управления:

  • НАУКА ДАННЫХ: MLOps ориентирован на управление моделями машинного обучения, включая повторное обучение, управление версиями и мониторинг дрейфа и справедливости.
  • БИЗНЕС: Цифровые решения, или Платформы управления решениями или автоматизации занимаются созданием версий бизнес-правил, рабочих процессов или других форм бизнес-политики.
  • ИТ: CI / CD и Data Governance ориентированы на поддержку разработки приложений и управления данными соответственно.

Фактически, теперь у нас есть три полунезависимых жизненных цикла, которые необходимо координировать. Мы можем либо позволить им вращаться автономно, используя «самые последние и самые лучшие» из каждого, либо мы можем заблокировать их вместе, заставив своего рода «глобальное управление версиями».

Какой из них выбрать, зависит от контекста, который мы рассмотрим в этой статье. Чтобы сделать это более конкретным, мы воспользуемся тремя классическими сценариями использования машинного обучения:

  • Отток клиентов - управление удержанием клиентов в розничной торговле или телекоммуникационной компании
  • Рекомендации по продуктам - ранжирование предложений на основе склонности к покупке
  • Оценка кредитного риска - оценка риска неисполнения обязательств по андеррайтингу ссуды

«Все сразу»: сквозные обновления

В качестве первого примера мы рассмотрим случай, когда нам необходимо координировать действия:

Допустим, у нас есть прогноз риска оттока клиентов - вероятность того, что клиент откажется от подписки на продукт, - и что этот прогноз в настоящее время использует модель машинного обучения, обученную на CustomerSegment, ProductsSubscribed, TimeAsClient и Ежемесячное использование.

Эти четыре части данных фиксируют тип клиента, количество продуктов, на которые они подписаны, и сколько они их используют. Однако, чтобы также фиксировать, как недавно клиент принял активное решение продолжить свой бизнес с нами, мы могли бы также включить новое поле, например, TimeOfLastSubscription.

Добавление этих новых полей данных вызывает повсеместные изменения:

  1. При обучении машинному обучению необходимо найти и выбрать новое поле данных из некоторого хранилища операционных данных (предоставляемого некоторой ИТ-системой). При вызове повторно обученной модели машинного обучения теперь требуется новое поле TimeOfLastSubscription в дополнение к четырем исходным параметрам.
  2. Что касается бизнеса, теперь нам нужно предоставить новое поле при запросе прогноза на основе машинного обучения. Кроме того, поскольку наши прогнозы теперь лучше, мы можем удалить существующие правила политики (например, «если клиент подписался на продукт менее 3 месяцев назад, никогда не предлагать предложения по удержанию»).
  3. Эффект пульсации сохраняется в ИТ-системах, которые теперь также должны предоставлять TimeOfLastSubscription при запросе решения о предложении удержания. ИТ-система, отвечающая за отслеживание подписок, также должна сделать эти данные доступными для обучения машинному обучению, замыкая цикл.

Таким образом, когда вы добавляете данные во весь цикл, вам обычно необходимо согласованно вносить все изменения в Data Science, Business и IT. Считайте это «серьезным обновлением».

«Правила ML +»: согласованные обновления прогнозов и политик

В качестве второго примера рассмотрим случай, когда требуется согласование версий машинного обучения и политик, но не ИТ-систем.

Рассмотрим базовую систему рекомендаций по продуктам, в которой мы используем машинное обучение для прогнозирования «склонности к покупке». Для определенной пары покупателя и продукта это предсказывает вероятность того, что покупатель купит продукт, если он будет предложен. Этот прогноз позволяет нам создать ранжированный список продуктов для продвижения каждому покупателю. В дополнение к этому прогнозу у нас обычно есть набор правил для фильтрации наших продуктов, на которые клиент не имеет права, которые недоступны в географическом регионе клиента или которые клиент уже владеет.

Теперь рассмотрим введение нового продукта в наш каталог продуктов. Изначально у нас очень мало клиентов, владеющих продуктом, поэтому модель машинного обучения вряд ли будет рекомендовать его точно. В результате мы не рекомендуем его достаточному количеству клиентов или не тем, и поэтому внедрение нового продукта происходит медленно.

Эту проблему «курицы и яйца» необходимо решить путем активного вмешательства, например, переопределив прогнозы на основе машинного обучения, чтобы рекомендовать новые продукты и ускорить внедрение. В этом подходе мы добавляем правило, которое «крадет» процент рекомендаций для старых продуктов, которые похожи по целевой аудитории на новый продукт, и перенаправляет эти рекомендации на новый продукт. Со временем, когда модель машинного обучения догонит и начнет достаточно часто рекомендовать новый продукт, это правило перенаправления может быть отменено.

С практической точки зрения управления это требует от нас координации обновления до новой модели машинного обучения с новой версией бизнес-политик (которые включают правило перенаправления).

Этот вариант использования является примером общей ситуации, когда новые или повторно обученные модели машинного обучения необходимо постепенно вводить в операционные системы. Когда прогнозы (пока) ненадежны - по какой-либо причине - наступает период времени, когда мы игнорируем или корректируем прогнозы для достижения желаемых бизнес-результатов.

«Использовать последнюю версию»: независимые обновления машинного обучения

Во многих ситуациях прогнозы, основанные на моделях машинного обучения, развиваются намного медленнее, чем в случае с двумя предыдущими примерами. В эти периоды стабильности, между сбоями, мы можем часто и автоматически повторно обучать и обновлять модели машинного обучения без необходимости согласования с правилами политик или проверки ИТ-систем.

Рассмотрим, например, оценку риска в сценарии утверждения ссуды. Модель ML используется для оценки риска неисполнения клиентом ссуды с учетом информации и истории клиента, а также размера и типа запрошенной ссуды. Эту модель риска можно часто переобучать, чтобы сделать оценку более точной, но параметры, необходимые для вызова модели, остаются неизменными, а возвращаемые прогнозы будут меняться только постепенно с течением времени.

В этих случаях, когда требуется прогноз, мы всегда можем вызвать последнюю версию модели машинного обучения, и никаких корректировок правил политики не требуется. Однако для этого требуется, чтобы конвейеры, используемые для повторного обучения модели, были устойчивыми и могли обнаруживать ошибки данных, например, и чтобы модель ML отслеживалась на предмет дрейфа во времени.

Кроме того, даже с этими мерами предосторожности, осторожная бизнес-команда тем не менее ежемесячно или ежеквартально будет проводить бизнес-моделирование - с учетом правил политики и прогнозов - чтобы гарантировать, что принятые решения о ссуде обеспечивают ожидаемые бизнес-результаты и соответствуют правилам справедливости и т. Д.

Резюме

Применение машинного обучения для автоматизации бизнеса не обязательно сложно из-за того, что требуются сложные методы машинного обучения. Часто он может быть основан в основном на структурированных данных, и «классических» подходов к машинному обучению, таких как регрессия или деревья решений, часто бывает достаточно для скоринга, оценки рисков и классификации бизнес-транзакций.

Что может быть сложным, так это «операционный» аспект автоматизации бизнеса (решения принимаются масштабно) и постоянно меняющиеся бизнес-цели и правила политики. Улучшение прогнозов на основе машинного обучения - при изменении политик - требует подходов, которые различаются в зависимости от варианта использования и бизнес-контекста.

В этой статье мы рассмотрели три сценария:

  • Комплексный выпуск для науки о данных, бизнеса и ИТ
  • Согласование только Data Science и Business версий
  • Самостоятельная переподготовка машинного обучения

Грегер работает в IBM во Франции. Приведенная выше статья носит личный характер и не обязательно отражает позицию, стратегию или мнение IBM.