Итак, вы думаете, что ваша корпоративная модель искусственного интеллекта работает на удивление хорошо!

Проблема оценки модели ИИ

На днях мне позвонила подруга, которая построила модель профилактического обслуживания для буровых станков на своем заводе. Была надежда, что модель точно предскажет, какие машины вот-вот выйдут из строя. Когда они протестировали модель на прошлых данных, модель оказалась чрезвычайно точной в прогнозировании предстоящих сбоев. Но теперь, когда модель находится в производстве, она была сбита с толку, почему точность, очевидно, упала так сильно. И она хотела знать, что случилось?

То, что происходит в лаборатории, остается в лаборатории

Вот две из наиболее очевидных проблем, которые иллюстрируют проблемы оценки моделей искусственного интеллекта, когда мы перемещаем их из лаборатории в реальный мир:

Реальный мир изменился. Ваша модель искусственного интеллекта обнаружила определенную взаимосвязь между входными данными и результатами (например, между отработанными часами и увольнением сотрудников), а затем получила хорошие оценки при слепой оценке. Но это все исторические данные. Эти отношения остаются такими же прочными в реальном мире сегодня?
Сложность измерения предотвращенных результатов. Любая модель, предсказывающая нежелательный результат - например, отказ производственного оборудования - может показаться неточной, если люди будут действовать, чтобы избежать предсказанного результата. Справедливо ли обвинять модель в том, что на самом деле ни одна машина не вышла из строя после профилактического обслуживания в соответствии с указаниями модели?

Предположим, вы построили прогнозирующую модель для риска оттока и возобновления ваших клиентов SaaS (у нас, в StepFunction, есть). Откуда вы знаете, что он работает и работает так, как должен? Одно дело - оценить модель на исторических данных (см. Здесь обсуждение различных показателей эффективности, например, Точность и Отзыв). Но как только вы приведете свою модель в действие, вы больше не сможете оценивать свою модель на основании того, отталкиваются ли обработанные клиенты или нет.

Новый образ мышления оценки

Итак, как правильно измерить влияние вашей модели? Начните с того, что хорошенько подумайте о своей цели для проекта - минимизировать ли отток клиентов, максимизировать NRR (чистый удержанный доход) или свести к минимуму затраты на успех клиента (CSM)?

Отслеживание тенденций - это отправная точка

После того, как вы определились с бизнес-метриками, которые хотите улучшить, вы сможете отслеживать их с течением времени. У вас по-прежнему будет проблема смешивания переменных - например, предположим, что вы развернули модель искусственного интеллекта, сокращающую отток, в январе 2020 года, а через шесть месяцев уровень оттока явно снизится. Стоит ли обрадоваться и объявить проект победой? Нет, потому что вы не можете точно сказать, что вызвало спад - на самом деле, многие компании столкнулись с сокращением оттока в первые месяцы карантина из-за коронавируса, поскольку клиенты избегали решительных действий.

Тем не менее, вы обязательно должны отслеживать наиболее важные бизнес-показатели, например Сохраненная чистая прибыль с течением времени. Значительный рост NRR, спустя достаточно долгое время после того, как ваша модель ИИ будет запущена в производство, при прочих равных, может и должен дать вам хорошее представление о проекте. И вы не попадете в ловушку ложного возбуждения, если будете знать о большинстве, если не обо всех, факторах, которые могут изменить ваши ключевые показатели.

Самый ясный способ оценить влияние - если вы можете себе это позволить

Золотым стандартом для тестирования влияния новой деловой практики является проведение эксперимента A / B. Если модель оттока ИИ идентифицирует 1000 клиентов из группы риска в определенном цикле, случайным образом поместите X% в набор A (набор, который будет действовать и передан команде CSM), а оставшиеся в наборе B (не передавайте их команда CSM). Очевидная проблема здесь в том, что большинство руководителей бизнеса не желают хранить молчание в отношении определенной группы клиентов и рискуют потерять их из-за оттока. Исследования в области медицинских экспериментов вселяют в нас надежду, и в следующих статьях мы рассмотрим методы проведения таких экспериментов, не замалчивая выявленных клиентов из группы риска.

Относительное влияние - Сравнение со старыми методами

Теперь предположим, что у вашей команды CSM есть какая-то существующая методология для идентификации клиентов, подверженных риску оттока (многие компании SaaS это делают). Команда использовала триггеры, например если еженедельное использование продукта упадет более чем на 50%, чтобы раньше выявлять клиентов из группы риска - назовите это триггерной моделью или моделью T. Теперь, начиная с января 2021 года, они внедрили новую прогностическую модель на основе искусственного интеллекта - звоните Это Модель P. Теперь ваша цель может быть немного уточнена. Возможно, вы захотите узнать, работает ли Модель P лучше, чем Модель T, помогая вам снизить уровень оттока. Или даже если это не так, является ли это добавкой к вашей существующей модели? Проведение честного сравнения между моделью T и моделью P по-прежнему сложно, например если группы идентифицируемых клиентов сильно пересекаются или размер групп сильно различается. Но сравнение выполнимо, и иметь базовую модель для сравнения намного лучше, чем ее не иметь.

Вывод

Легко прийти в восторг, когда за короткий промежуток времени увидишь хорошие результаты, вложенные в нечто волшебное, но явное доказательство - это непросто. Вот 3 вывода, которые помогут вам повысить рентабельность инвестиций:

Не полагайтесь на традиционные методы (используемые для тестирования моделей ИИ на исторических данных), чтобы оценить влияние вашей модели ИИ в реальном мире. Если вы думаете, что ваша модель дает вам много ложных срабатываний, то есть выявляет много клиентов из группы риска, которые в конечном итоге остаются, сделайте паузу и подумайте: «Может быть, модель правильно определяет клиентов из группы риска, и моя команда CSM спасая их? »
Хорошо подумайте о своих бизнес-целях в рамках проекта и тщательно продумайте, что может на них повлиять - ваша модель искусственного интеллекта или какое-то другое изменение в бизнес-среде?
Сравните проект AI и его результаты с отсутствием этого проекта. Мы обсудили несколько способов провести такое сравнение либо между идентифицированными клиентами, на которых действовали, и теми, кто не реагировал, либо между рекомендациями вашего традиционного проекта и рекомендациями проекта ИИ.