Объяснимость сделана правильно

Я полностью наслаждался пребыванием в должности со степенью MBA; Я любил каждый предмет до глубины души и смог соединить точки вокруг того, как знание каждого предмета поможет мне стать лучшим менеджером с сильным целостным видением. Однако был один предмет, по которому я так и не удосужился войти в класс — это деловая этика. Я был твердо убежден, что этике нельзя научить. У каждого человека она разная, что зависит от его системы ценностей. Для меня, может быть, украсть ручку — это нормально, но украсть машину — нет. Для кого-то может быть иначе.

Наконец, общее определение слишком хорошо, чтобы его можно было расширить — «Поступать правильно».

Однако это «поступать правильно» хорошо работает только для людей, потому что моральные ценности универсальны. Для машин концепция системы ценностей не работает. Итак, пока мы не достигнем спорной стадии «сингулярности», определение этики для машин является ответственностью человека.

Будь то расовая предвзятость модели, проблема заметности в Твиттере (ссылка) или антихрист ИИ (ссылка) — существует множество примеров проблем с предвзятостью и справедливостью модели. В настоящее время это самое большое препятствие для роста AI/ML.

За последние 5 лет произошел огромный рост объяснимого ИИ. Сделать сложные модели объяснимыми и попытаться устранить любую предвзятость и добиться справедливости в модели было одной из ключевых целей специалистов по данным.

Из всех методологий SHAP и LIME являются двумя апостериорными методологиями, получившими значительное внимание. SHAP вычисляет предельный вклад функций таким образом, чтобы общий вклад составлял 100%. С другой стороны, LIME фокусируется на местной достоверности. то есть метод, который аппроксимирует любую модель машинного обучения «черный ящик» локальной интерпретируемой линейной моделью для объяснения каждого отдельного прогноза.

Вот хорошая статья о SHAP, если вы хотите понять, как он работает:



Хотя LIME быстрее, но SHAP обеспечивает как глобальную, так и локальную согласованность и интерпретируемость и чаще используется в отрасли.

Прежде чем использовать SHAP, следует рассмотреть различные ограничения методологии, чтобы лучше понять и объяснить модель.

Ограничение 1: Корреляция, а не причинно-следственная связь: важно признать, что SHAP только «объясняет» переменную «корреляция», определенную в структуре модели. Это не означает, что определенные переменные также будут иметь причинно-следственную связь. В случае отсутствия причинно-следственной связи это может быть либо из-за ложной корреляции, либо из-за опущенных переменных в модели (некоторые переменные, которые могли бы лучше определить выходные данные, отсутствуют в наборе данных, а другие переменные пытаются представить влияние эти недостающие переменные). Важно, чтобы каждая переменная в модели была индивидуально исследована на предмет важности, обозначения и причинно-следственной связи.

Ограничение 2: Зависимость от модели:SHAP по замыслу определяет «насколько важна функция для модели», а не «насколько важна эта функция в действительности». . Грубо говоря, SHAP показывает чувствительность переменной к выходному глобальному среднему значению с учетом модели.

Это накладывает два ключевых ограничения:

1. Обратите внимание, что, поскольку SHAP помогает сделать вывод о важности функции для данной модели, если модель неправильно разработана/обучена, могут возникнуть неотъемлемые проблемы с выводами SHAP.

2. Поскольку важность и значение переменных определяются на основе глобального среднего значения (назовем его эталонным значением). Неверность самого эталонного значения может привести к неправильному выводу переменных — как в отношении вывески, так и в отношении важности функции.

Ограничение 3: Постоянство важности признаков и обозначений:следует отметить, что вывод значений SHAP тесно связан с «целью» модели. Например, если модель разработана для выбора хороших акций (акций), выходные данные могут иметь различную важность характеристик (или обозначения), если целью модели является оптимизация портфеля по сравнению с покупкой/отказом от покупки акций, хотя обе модели нацелены на увеличение прибыли. Поэтому выходные данные SHAP всегда следует анализировать с учетом цели модели.

Ограничение 4: Проблема мультиколлинеарности.Если есть переменные с высокой степенью мультиколлинеарности, значения SHAP будут высокими для одной из переменных и нулевыми/очень низкими для другой. Это может воздействовать на идею важности функций. Здесь проблема не в том, как SHAP присваивает значения, а в том, как была обучена модель. Если машина обучена таким образом, что вес сначала присваивается одной переменной (скажем, x1), вклад другой коррелированной переменной (скажем, x2) будет минимальным. Это может показаться нелогичным, если с точки зрения бизнеса вторая переменная (x2) более интуитивно понятна.

Как гласит Третий закон Артура Кларка: «Любая достаточно продвинутая технология неотличима от магии», именно такие методологии, как SHAP, должны раскрывать реальности, стоящие за магией, и определять моральную науку для машин.

SHAP — отличная мера для улучшения объяснимости модели. Однако, как и любая другая методология, она имеет свои сильные и слабые стороны. Крайне важно, чтобы методология использовалась с учетом ограничений и оценки значений SHAP в соответствующем контексте.

Если вы столкнулись с другими ограничениями SHAP, поделитесь ими в комментариях.

Отказ от ответственности. Мнения, выраженные в этой статье, являются мнением авторов в их личном качестве, а не их соответствующих работодателей.