Во многих наших проектах лучшие решения, как правило, основаны на алгоритмах машинного обучения с использованием краудсорсинга. Хотя эти алгоритмы очень точны в своей предсказательной силе, их трудно интерпретировать с точки зрения непрофессионала.

Стремясь помочь клиентам интерпретировать эти модели, мы узнали, что большинство из них знакомы со статистическими моделями, такими как деревья решений или модели CART, поскольку они, как правило, достаточно интуитивны, просты для понимания и легко визуализируются. По нашему опыту,

Клиенты охотнее принимают результаты алгоритмов машинного обучения, если их можно представить или интерпретировать с помощью более простых уравнений или деревьев решений.

Учимся на опыте

Один из проектов, в котором мы видели, как это произошло, был в страховой отрасли, где мы смогли помочь руководителям компаний из списка Fortune 100 понять предоставленные модели, получив организационную поддержку для развертывания этих алгоритмов для принятия многомиллионных бизнес-решений.

Цель состояла в том, чтобы разработать алгоритм для прогнозирования стоимости требований о компенсации отдельным работникам на основе индивидуальных характеристик требований, таких как демографические данные сотрудников, характер работы, тип травмы и многие другие.

Эти прогнозы позволяют компании сосредоточиться на претензиях, которые могут привести к более высоким затратам, таким как потеря времени (отпуск), и внедрить процессы для их упреждающего реагирования, например, более раннее обеспечение более высокого качества обслуживания. Расходы по претензиям были разделены на следующие четыре категории:

Доброкачественная (более низкая стоимость), Умеренная, Серьезная и Критическая (более высокая стоимость).

Цель модели состояла в том, чтобы предсказать, в какую корзину затрат попадет отдельная претензия. Как всегда, мы провели конкурс на нашей платформе под названием Спрогнозируйте стоимость исков о компенсации работникам, на который было отправлено более 800 моделей. Из них модели машинного обучения (ML), такие как Random Forest (RF) и Gradient Boosting (GB), обеспечили наиболее точные прогнозы.

Модели RF достигли общей точности 73% для классификации случаев в правильные сегменты затрат.

Теперь вопрос заключался в том, как сделать эти модели более доступными, интерпретируемыми и, следовательно, более полезными для наших клиентов.

Чтобы сделать это, мы исследовали три разных пути:

Выявление главных драйверов

Первым шагом в этом процессе является понимание переменных, которые наиболее важны для прогнозирования. Графики важности переменных могут быть созданы как один из дополнительных выходных данных для Random Forest или других моделей машинного обучения с использованием таких инструментов, как R, Python и т. д. Эти графики позволяют пользователям определить список переменных, которые являются наиболее ценными. Графики можно интерпретировать как процентное значение, умноженное на то, что переменные использовались моделями для прогнозирования.

Как показано на диаграмме, переменные 10 и 51 представляют собой ключевые факторы, используемые моделью при прогнозировании, в то время как другие, такие как 42, 86 и 8, менее значимы. В задаче прогнозирования стоимости претензии были такие факторы, как «Средняя недельная заработная плата», «Только потерянное время или Медицинские услуги», которые оказались главными факторами.

Путь A: Создание упрощенной модели I с помощью CART

Модель CART, созданная с использованием 10 основных переменных, найденных на графике важности модели RF, не могла различать такие случаи, как «умеренный» и «критический». И поскольку данные были смещены в сторону «доброкачественного» (80 % случаев в данных по претензиям), прогнозы модели также были смещены в сторону «доброкачественного». Схема единичной сегментации, используемая в модели CART, была неадекватной для визуализации различий между «доброкачественными» и «умеренными» случаями или «умеренными» и «тяжелыми» случаями.

Поскольку точность модели значительно снизилась до 62 % при использовании CART, несмотря на более высокую точность для «доброкачественных» случаев, были использованы подходы Путь B и Путь C.

Путь B — Построение модели на упрощенных данных для интерпретации

Поскольку стоимость претензий имела 4 сегмента, а модель CART изо всех сил пыталась дифференцировать случаи, была предпринята попытка упростить данные, сократив их до включения только двух крайних сегментов — «Безопасный» и «Тяжелый/Критический» (серьезные и критические). случаи были объединены). Это было сделано, чтобы помочь модели лучше дифференцировать случаи и в дальнейшем использовать результаты для интерпретации. Таким образом, модель CART была разработана на основе упрощенных данных, предсказывающих случаи с точностью 70 % как для «доброкачественных», так и для «тяжелых/критических» случаев (в отличие от модели I).

Поскольку модель II была моделью CART, выявление ведущих факторов является простой задачей. Переменные, используемые в верхней части дерева, более значимы для прогнозирования, тогда как переменные, используемые в нижней части дерева, менее важны.

Самое главное, бизнес-правила или условия, которые заставляли модель классифицировать случай как «доброкачественный» или «серьезный/критический», были получены из дерева решений CART. Хотя сама модель и близко не похожа на модель RF, она предлагает некоторые правила, которые могут помочь клиенту понять, связать и оценить то, что будет делать модель RF. Для интерпретации были получены следующие:

(1) Если случай повлек за собой только медицинские расходы и нет связанных с ним потерь времени (отпуска), то существует высокая вероятность того, что расходы являются «неопасными».
(2) Если случай были понесены как медицинские расходы, так и потеря времени, а причина травмы связана с «напряжением или повторяющимися движениями», а связанная с этим часть тела включает внутренние органы, спинной мозг, бедро и т. д., тогда стоимость является «серьезной / критической».

Путь C, усовершенствованный по сравнению с другими подходами, описанными до сих пор, также был направлен на изучение того, можно ли сгенерировать бизнес-правила, подобные приведенным выше, для всех 4 сегментов затрат.

Путь C — ручное моделирование модели случайного леса для интерпретации

Путь C включал ручное моделирование случайного набора деревьев решений с использованием подхода CART, как и RF. Деревья строятся на исходном наборе данных, а не на упрощенной версии данных. Смоделированные деревья пытаются распределить случаи в одну из 4 стоимостных групп. Модели моделировались только с использованием верхних драйверов модели RF.

Идея состоит в том, что каждое дерево CART может идентифицировать некоторые исключительные шаблоны, тем самым оптимизируя прогнозы для определенного аспекта данных. Среди 30 созданных моделей CART было выбрано несколько моделей с большей точностью и с наименьшим количеством ложных срабатываний, чтобы определить основные взаимодействия. Примеры результатов нескольких моделей CART вместе с несколькими наиболее яркими взаимодействиями показаны ниже.

Все эти подходы помогли нам дать руководителям более подробное и понятное объяснение работы окончательной модели RF.

Кроме того, следующие бизнес-правила были получены из лучших смоделированных моделей CART. Обратите внимание, что имитационное упражнение предназначено исключительно для интерпретации и не имеет ничего общего с тем, что делает модель RF. Оно предоставляет бизнес-правила, которые могут помочь клиенту понять, связать и оценить то, что модель RF могла бы сделать. сделать.

(1) Если дело повлекло как медицинские расходы, так и потерю времени, а заявитель был принят на работу в 2012 году или позже, то существует более высокая вероятность того, что случай будет считаться «тяжелым».
(2) Если средняя недельная заработная плата составляет между 500 и 650 долл. США и характером травмы является инфекционное заболевание, отравление, воспаление и т. д., тогда случай, скорее всего, является «умеренным».
(3) Если средняя недельная заработная плата превышает 1050 долл. США и юрисдикция означает «Калифорния», то дело, скорее всего, «критическое».

Чтобы получить более подробную информацию о проведенном нами анализе, не стесняйтесь связаться с нами или запросить демонстрацию.

Это сообщение изначально было опубликовано в блоге CrowdANALYTIX здесь.