Интерпретируемость модели, часть 2: методы, не зависящие от глобальной модели

Как упоминалось в Часть 1 интерпретируемости моделей, гибкость моделей-агностиков является самым большим преимуществом, и именно поэтому они так популярны. Специалисты по данным и инженеры по машинному обучению могут использовать любую модель машинного обучения, которую они пожелают, поскольку к ней можно применить метод интерпретации. Это позволяет значительно упростить оценку задачи и сравнение интерпретируемости модели.

Часть 2 этой серии статей об интерпретируемости моделей посвящена глобальным методам, не зависящим от модели. Резюме:

Глобальная интерпретируемость направлена на то, чтобы охватить всю модель. Основное внимание уделяется объяснению и пониманию того, почему модель принимает определенные решения на основе зависимых и независимых переменных.

Глобальные методы

Глобальные методы используются для описания среднего поведения модели машинного обучения, что делает их очень ценными, когда инженер модели хочет лучше понять общие концепции модели, ее данные и способы ее возможной отладки.

Я пройдусь по трем разным типам агностических методов глобальной модели.

График частичной зависимости (PDP)

На графике частичной зависимости показана функциональная взаимосвязь между набором входных признаков и тем, как они влияют на прогнозируемый/целевой отклик. Он исследует, как прогнозы больше зависят от конкретных значений интересующей входной переменной по сравнению с другими.

Он может показать, является ли связь между целевым откликом и функцией линейной, монотонной или более сложной. Это помогает исследователям и специалистам по данным/инженерам понять и определить, что происходит с прогнозами моделей при корректировке различных функций.

Согласно статье Гринвелла и др. Простая и эффективная мера важности переменной на основе модели, плоский график частичной зависимости указывает на то, что функция не важна и не влияет на целевой ответ. Чем больше изменяется график частичной зависимости, тем больше функция важна для его предсказания.

При использовании числовых признаков важность этих признаков можно определить как отклонение каждого уникального значения признака от средней кривой по следующей формуле:

Пример:

Допустим, мы используем набор данных о раке шейки матки, который исследует и указывает факторы риска того, заболеет ли женщина раком шейки матки.

В этом примере мы подбираем случайный лес, чтобы предсказать, может ли женщина заболеть раком шейки матки, на основе таких факторов риска, как количество беременностей, использование гормональных контрацептивов и т. д. Мы используем график частичной зависимости, чтобы вычислить и визуализировать вероятность заболеть раком на основе различных признаков.

Выше приведены две визуализации, которые показывают графики частичной зависимости вероятности рака на основе признаков: возраста и лет использования гормональных контрацептивов.

Что касается возрастного признака, мы видим, что PDP остается низким до достижения возраста 40 лет, после чего вероятность рака возрастает. Это же касается и контрацептивного признака, после 10 лет использования гормональных контрацептивов отмечается увеличение вероятности онкологических заболеваний.

Преимущества:

Графики частичной зависимости просты в реализации и интерпретации. Изменение функций и измерение их влияния на прогноз — это простая форма анализа взаимосвязи между функцией и прогнозом, а также интерпретация сложных моделей или задач.
Интерпретации ясны. Есть некоторые модели, в которых вам придется углубиться в понимание объяснения, однако в PDP, если функция, используемая для вычисления PDP, не коррелирует с другими функциями, это просто показывает, что функция практически не влияет на прогноз. При этом вы можете делать простые и понятные толкования.

Недостатки:

Максимальное количество функций — 2. Это связано с двумерным представлением, которым ограничен PDP. Использование PDP для построения и интерпретации более двух объектов затруднено.
Отсутствие данных. Это проблема для многих процессов, методов и моделей, однако PDP может быть неточным для значений, для которых мало данных. Интерпретация регионов, по которым почти нет данных, может ввести в заблуждение.
Утверждение Независимости. Некоторые функции не являются в первую очередь независимыми, и на них влияют другие функции. Например, представьте, что вы прогнозируете время, необходимое человеку, чтобы пробежать 100 м, принимая во внимание его рост и вес. PDP одного признака, роста, не коррелирует с другим признаком, весом. Это неправда, и обе эти особенности напрямую влияют на время, необходимое человеку для бега на 100 м. PDP легко интерпретируется, если предполагается, что признак или признаки для вычисляемой частичной зависимости не коррелируют ни с каким другим признаком, однако это также является его самым большим преимуществом.

Внедрение PDP в ваши проекты

Если вы используете R, существуют такие пакеты, как: iml, pdp и DALEX.
Если вы используете Python, в модуле sklearn.inspection есть такие пакеты, как PDPBox и функция PartialDependenceDisplay. Для получения дополнительной информации о sklearn.inspection перейдите по этой ссылке.

2. Взаимодействие функций

Так как же устранить недостаток PDP и его веру в то, что функции не зависят от других функций? Взаимодействие функций. Одна функция и ее эффект зависят от значения других функций.

Когда две функции взаимодействуют друг с другом, изменение прогноза происходит из-за вариаций функции и того, как она влияет на отдельные функции.

Чтобы лучше понять эту концепцию, мы можем разбить прогнозы на четыре термина на основе модели машинного обучения, которая делает прогноз на основе двух функций:

Постоянный срок
Срок для первой функции
Срок для второй функции
Срок для взаимодействия между двумя функциями

Что важно помнить при построении и развертывании модели? Понимание своей конечной цели. Читайте наше интервью с экспертами по машинному обучению из Стэнфорда, Google и HuggingFace, чтобы узнать больше.

H-статистика Фридмана

Если две функции не взаимодействуют друг с другом, мы можем предположить, что функция частичной зависимости имеет центр в 0. Мы можем сформулировать формулу как:

PDjk(xj, xk) — двусторонняя функция частичной зависимости обоих признаков.
PDj(xj) + PDk(xk) — две функции частичной зависимости отдельных признаков

Однако, если функция не взаимодействует друг с другом или с какой-либо другой функцией, функция прогнозирования может быть сформулирована как:

f^(x) — сумма функций частичной зависимости
PDj(xj) — частная зависимость, зависящая от признака j
PD-j(x-j) — это частичная зависимость, зависящая от всех остальных признаков, кроме j-го признака.

Следующий шаг включает в себя измерение взаимодействий между функциями:

Взаимодействие между признаками j и k:

Взаимодействие между функцией j и любыми другими функциями:

Пример:

Теперь давайте воспользуемся тем же набором данных о раке шейки матки и применим H-статистику Фридмана к каждому признаку.

Случайный лес использовался, чтобы предсказать, может ли женщина заболеть раком шейки матки, на основе факторов риска. К каждой функции была применена H-статистика Фридмана, показывающая относительный интерактивный эффект всех функций. Гормональные контрацептивы обладают самым высоким эффектом по сравнению с другими свойствами. Используя это, мы можем дополнительно изучить двустороннее взаимодействие между функциями и другими функциями.

Преимущества:

В отличие от PDP, H-статистика Фридмана позволяет анализировать взаимодействие и силу между тремя или более функциями.
Интерпретация со значением. Функции статистически изучены, а взаимодействия определены, что позволяет глубже погрузиться в понимание типов взаимодействий.

Недостатки:

H-статистика Фридмана вычислительно затратна и требует много времени для оценки предельного распределения.
Дисперсия. Если не используются все точки данных, оценки предельного распределения сталкиваются с определенной дисперсией, что приводит к нестабильности результатов.
Визуализация взаимодействия: H-статистика Фридмана показывает нам силу взаимодействия между функциями, однако она не сообщает нам через двухмерную визуализацию того, как выглядят взаимодействия, такие как PDP.
H-статистику Фридмана нельзя использовать для таких задач, как классификатор изображений, поскольку входными данными являются пиксели.

3. Глобальный суррогат

Глобальный суррогат – это еще один тип интерпретируемого моделирования, который обучен аппроксимировать предсказания модели черного ящика.

Модели черного ящика – это модели, которые слишком сложны, чтобы люди не могли их интерпретировать. Люди плохо понимают, как переменные используются или комбинируются для прогнозирования. Используя модель черного ящика, мы можем сделать выводы о ней, используя суррогатную модель.

Суррогатная модель, также известная как метамодель или эмулятор, модель поверхности отклика и эмулятор, обучается с использованием подхода, управляемого данными.

Этапы суррогатного моделирования:

Выберите набор данных.
Вы можете использовать тот же набор данных, который использовался для обучения модели черного ящика, или совершенно новый набор данных из того же дистрибутива.
После того, как вы выбрали свой набор данных, получите прогнозы модели черного ящика.
Выберите интерпретируемый тип модели.
Это может быть линейная модель, дерево решений, случайный лес и т.д.
Обучите интерпретируемую модель выбранному набору данных и его прогнозам.
Вот оно. Суррогатная модель.
Следующим шагом, который поможет вам лучше интерпретировать, является измерение разницы между предсказаниями суррогатной модели и предсказаниями модели черного ящика.

Меру R-квадрата можно использовать для вычисления разницы между суррогатной моделью и моделью черного ящика, измеряя реплику между ними.

R2 — это процент дисперсии, зафиксированный суррогатной моделью.
SSE представляет собой сумму квадратов ошибок.
SST - это сумма квадратов.
y^∗(i) — прогноз для i-го экземпляра суррогатной модели.
y^(i) Прогноз модели черного ящика.
y^¯ Среднее значение предсказаний модели черного ящика.

Если значение R2 близко к 1, это будет указывать на низкое значение SEE, что, в свою очередь, мы можем интерпретировать как то, что интерпретируемая модель хорошо аппроксимирует поведение модели черного ящика.

Если значение R2 близко к 0, это будет указывать на высокое значение SEE, что, в свою очередь, позволит нам сделать вывод, что интерпретируемая модель не может объяснить модель черного ящика.

Пример:

Сохраняя один и тот же пример, набор данных о раке шейки матки использует случайный лес. Как упоминалось в шагах выше, вы выбираете интерпретируемый тип модели и обучаете ее на исходном наборе данных. В этом случае мы используем дерево решений, но в качестве результатов используем прогноз из случайного леса. Подсчеты в узлах показывают частоту классификаций в узлах с использованием модели черного ящика.

Преимущества:

Показатель R-квадрат является популярным показателем. Это помогает нам измерить, насколько хороша суррогатная модель в аппроксимации предсказаний модели черного ящика.
Суррогатное моделирование легко и просто реализовать. Это позволяет более плавно интерпретировать и лучше объяснять людям, у которых практически нет знаний в мире науки о данных и машинного обучения.
Гибкость. Возможность использования любого интерпретируемого типа модели обеспечивает гибкость суррогатного моделирования. Это позволяет вам обмениваться интерпретируемой моделью, а также базовой моделью черного ящика.
Меньше вычислительных затрат. Обучение и использование суррогатного моделирования намного дешевле, чем использование других методов.

Недостатки:

Выбор интерпретируемой модели. Хотя это одно из преимуществ, благодаря своей гибкости. Вы также должны принять во внимание, что в зависимости от того, какую интерпретируемую модель вы выбрали, она имеет свои преимущества и недостатки.
Дело в модели, а не в данных. При использовании суррогатного моделирования нужно помнить, что вы делаете выводы и интерпретации о модели, а не о данных. Суррогатное моделирование не позволяет увидеть реальный результат.

Заключение

В этой части серии мы рассмотрели, что такое глобальные методы и как они связаны с методами, не зависящими от модели. Я рассмотрел два разных типа методов Model Agnostic, изучив их математику, пример для вашего лучшего понимания, а также преимущества и недостатки, чтобы помочь вам выбрать, какой метод вам следует использовать.

В следующей части я расскажу больше о методах, не зависящих от локальной модели.

Следите за обновлениями!

Примечание редактора. Heartbeat — это интернет-издание и сообщество, созданное участниками и посвященное предоставлению лучших образовательных ресурсов для специалистов по науке о данных, машинному обучению и глубокому обучению. Мы стремимся поддерживать и вдохновлять разработчиков и инженеров из всех слоев общества.

Независимая от редакции, Heartbeat спонсируется и публикуется Comet, платформой MLOps, которая позволяет специалистам по данным и командам машинного обучения отслеживать, сравнивать, объяснять и оптимизировать свои эксперименты. Мы платим нашим авторам и не продаем рекламу.

Если вы хотите внести свой вклад, перейдите к нашему призыву к участию. Вы также можете подписаться на получение наших еженедельных информационных бюллетеней (Еженедельник глубокого обучения и Информационный бюллетень Comet), присоединиться к нам в Slack и следить за Comet в Twitter и LinkedIn, чтобы получать ресурсы, события и многое другое, что поможет вам быстрее создавать лучшие модели машинного обучения.

Интерпретируемость модели, часть 2: методы, не зависящие от глобальной модели

Глобальные методы

График частичной зависимости (PDP)

Пример:

Внедрение PDP в ваши проекты

2. Взаимодействие функций

H-статистика Фридмана

Пример:

3. Глобальный суррогат

Пример:

Заключение

Вопросы по теме