Проблема оценки модели ИИ

На днях мне позвонила подруга, которая построила модель профилактического обслуживания для буровых станков на своем заводе. Была надежда, что модель точно предскажет, какие машины вот-вот выйдут из строя. Когда они протестировали модель на прошлых данных, модель оказалась чрезвычайно точной в прогнозировании предстоящих сбоев. Но теперь, когда модель находится в производстве, она была сбита с толку, почему точность, очевидно, упала так сильно. И она хотела знать, что случилось?

То, что происходит в лаборатории, остается в лаборатории

Вот две из наиболее очевидных проблем, которые иллюстрируют проблемы оценки моделей искусственного интеллекта, когда мы перемещаем их из лаборатории в реальный мир:

  1. Реальный мир изменился. Ваша модель искусственного интеллекта обнаружила определенную взаимосвязь между входными данными и результатами (например, между отработанными часами и увольнением сотрудников), а затем получила хорошие оценки при слепой оценке. Но это все исторические данные. Эти отношения остаются такими же прочными в реальном мире сегодня?
  2. Сложность измерения предотвращенных результатов. Любая модель, предсказывающая нежелательный результат - например, отказ производственного оборудования - может показаться неточной, если люди будут действовать, чтобы избежать предсказанного результата. Справедливо ли обвинять модель в том, что на самом деле ни одна машина не вышла из строя после профилактического обслуживания в соответствии с указаниями модели?

Предположим, вы построили прогнозирующую модель для риска оттока и возобновления ваших клиентов SaaS (у нас, в StepFunction, есть). Откуда вы знаете, что он работает и работает так, как должен? Одно дело - оценить модель на исторических данных (см. Здесь обсуждение различных показателей эффективности, например, Точность и Отзыв). Но как только вы приведете свою модель в действие, вы больше не сможете оценивать свою модель на основании того, отталкиваются ли обработанные клиенты или нет.

Новый образ мышления оценки

Итак, как правильно измерить влияние вашей модели? Начните с того, что хорошенько подумайте о своей цели для проекта - минимизировать ли отток клиентов, максимизировать NRR (чистый удержанный доход) или свести к минимуму затраты на успех клиента (CSM)?

Отслеживание тенденций - это отправная точка

После того, как вы определились с бизнес-метриками, которые хотите улучшить, вы сможете отслеживать их с течением времени. У вас по-прежнему будет проблема смешивания переменных - например, предположим, что вы развернули модель искусственного интеллекта, сокращающую отток, в январе 2020 года, а через шесть месяцев уровень оттока явно снизится. Стоит ли обрадоваться и объявить проект победой? Нет, потому что вы не можете точно сказать, что вызвало спад - на самом деле, многие компании столкнулись с сокращением оттока в первые месяцы карантина из-за коронавируса, поскольку клиенты избегали решительных действий.

Тем не менее, вы обязательно должны отслеживать наиболее важные бизнес-показатели, например Сохраненная чистая прибыль с течением времени. Значительный рост NRR, спустя достаточно долгое время после того, как ваша модель ИИ будет запущена в производство, при прочих равных, может и должен дать вам хорошее представление о проекте. И вы не попадете в ловушку ложного возбуждения, если будете знать о большинстве, если не обо всех, факторах, которые могут изменить ваши ключевые показатели.

Самый ясный способ оценить влияние - если вы можете себе это позволить

Золотым стандартом для тестирования влияния новой деловой практики является проведение эксперимента A / B. Если модель оттока ИИ идентифицирует 1000 клиентов из группы риска в определенном цикле, случайным образом поместите X% в набор A (набор, который будет действовать и передан команде CSM), а оставшиеся в наборе B (не передавайте их команда CSM). Очевидная проблема здесь в том, что большинство руководителей бизнеса не желают хранить молчание в отношении определенной группы клиентов и рискуют потерять их из-за оттока. Исследования в области медицинских экспериментов вселяют в нас надежду, и в следующих статьях мы рассмотрим методы проведения таких экспериментов, не замалчивая выявленных клиентов из группы риска.

Относительное влияние - Сравнение со старыми методами

Теперь предположим, что у вашей команды CSM есть какая-то существующая методология для идентификации клиентов, подверженных риску оттока (многие компании SaaS это делают). Команда использовала триггеры, например если еженедельное использование продукта упадет более чем на 50%, чтобы раньше выявлять клиентов из группы риска - назовите это триггерной моделью или моделью T. Теперь, начиная с января 2021 года, они внедрили новую прогностическую модель на основе искусственного интеллекта - звоните Это Модель P. Теперь ваша цель может быть немного уточнена. Возможно, вы захотите узнать, работает ли Модель P лучше, чем Модель T, помогая вам снизить уровень оттока. Или даже если это не так, является ли это добавкой к вашей существующей модели? Проведение честного сравнения между моделью T и моделью P по-прежнему сложно, например если группы идентифицируемых клиентов сильно пересекаются или размер групп сильно различается. Но сравнение выполнимо, и иметь базовую модель для сравнения намного лучше, чем ее не иметь.

Вывод

Легко прийти в восторг, когда за короткий промежуток времени увидишь хорошие результаты, вложенные в нечто волшебное, но явное доказательство - это непросто. Вот 3 вывода, которые помогут вам повысить рентабельность инвестиций:

  1. Не полагайтесь на традиционные методы (используемые для тестирования моделей ИИ на исторических данных), чтобы оценить влияние вашей модели ИИ в реальном мире. Если вы думаете, что ваша модель дает вам много ложных срабатываний, то есть выявляет много клиентов из группы риска, которые в конечном итоге остаются, сделайте паузу и подумайте: «Может быть, модель правильно определяет клиентов из группы риска, и моя команда CSM спасая их? »
  2. Хорошо подумайте о своих бизнес-целях в рамках проекта и тщательно продумайте, что может на них повлиять - ваша модель искусственного интеллекта или какое-то другое изменение в бизнес-среде?
  3. Сравните проект AI и его результаты с отсутствием этого проекта. Мы обсудили несколько способов провести такое сравнение либо между идентифицированными клиентами, на которых действовали, и теми, кто не реагировал, либо между рекомендациями вашего традиционного проекта и рекомендациями проекта ИИ.