Укрепление доверия к сложным методам прогнозного моделирования.

Имея возможность применить машинное обучение в одном из гигантов по производству продуктов за последние пару месяцев, я столкнулся со многими проблемами, пытаясь завоевать доверие исполнительного руководства. Я хотел сделать все возможное, чтобы извлечь полезную информацию из изобилия необработанных данных, которыми мне поделились.

Проект, над которым я работал, представлял собой задачу прогнозирования возможностей отдела продаж. Цель состояла в том, чтобы предсказать вероятность конверсии для возможностей в бизнес-процессе (над которым работал отдел продаж).

Как и в любом другом проекте прогнозной аналитики, типичного обучения модели, оценки, настройки гиперпараметров и доставки прогнозов было недостаточно. Бизнес хотел понять влияние отдельных факторов и эффектов взаимодействия на те прогнозы, которые были созданы причудливыми древовидными моделями, которые использовались за кулисами.

Хотя в Интернете уже есть много ресурсов для объяснения интерпретации моделей, я намерен просто рассказать и поделиться своими знаниями о методах, которые можно изучить, чтобы дать атрибуцию входным переменным, используемым в прикладном машинном обучении.

Есть довольно много доступных методов:

  • LIME (объяснения, не зависящие от локальной интерпретируемой модели): этот метод, как следует из названия, не зависит от модели и может использоваться на любой модели. области сложной моделирующей функции.
  • SHAP (стройные аддитивные объяснения). Этот метод, основанный на теории игр, лучше всего работает с моделью, основанной на дереве решений. На самом деле он оптимизирован для моделей повышения градиента, таких как XGBoost. Он берет строку набора данных и отслеживает ее по дереву. Он запоминает, какие переменные вносят свой вклад, когда эта конкретная строка или наблюдение данных перемещаются вниз по дереву.
  • Интерпретатор дерева

Следующий доклад о построении объяснимых систем машинного обучения, сделанный Патриком Холлом из H2O, ясно объясняет применимость вышеупомянутых методов.

Интересно, что Патрик также говорит о суррогатах дерева решений, которые можно использовать в сочетании с графиками частичной зависимости и индивидуального условного ожидания, чтобы отсеять значительные эффекты взаимодействия в рамках многомерной интерактивности, которая обычно встречается в наборах данных с большим пространством признаков.

В конце концов, получить полезную информацию в реальных условиях бизнеса гораздо легче, чем сказать. Гораздо проще обучить модель и получить довольно хорошую производительность на тестовом наборе. Но настоящий переломный момент заключается в интерпретации этих моделей и помощи бизнесу в понимании тех сложных взаимодействий, которые имеют место быть. Как никакая модель машинного обучения не является абсолютной, так и никакая интерпретируемая техника машинного обучения не может быть абсолютно точной. Однако такие методы, как SHAP и LIME, дают довольно приблизительные решения, которые можно сочетать с соответствующей бизнес-теорией для получения ценной информации.