Использование контрфактических экземпляров для XAI

Контрфактическое объяснение — это мощный, но простой метод улучшения объяснимости моделей машинного обучения.

вступление

Самым большим недостатком многих моделей машинного обучения и нейронных сетей является их «черный ящик». Какая функция оказала наибольшее влияние на этот прогнозируемый результат, который мы получили для экземпляра? XAI, что означает «объяснимый искусственный интеллект», — это область исследования, которая пытается решить эту проблему моделей черного ящика.

Есть в основном два направления подходов к XAI. Один из них — прямое объяснение внутренних принципов работы моделей. Другой способ объяснить модель — это скорее апостериорный подход, когда вы пытаетесь объяснить, как выходные данные были сгенерированы или предсказаны. Интуитивно понятный способ сделать это — предоставить пример другого экземпляра, имеющего схожие характеристики с интересующим экземпляром. Мы называем это «Объяснения на основе случаев или примеров».

Эта книга под названием «Интерпретируемое машинное обучение», написанная Кристофом Молнаром, представляет пять различных методологий, которые подпадают под категорию объяснений на основе примеров. Здесь мы коснемся одного из них — контрфактических объяснений.

Объяснения контрфактуализма направлены на то, чтобы объяснить модель на основе следующего простого и ясного утверждения:

«Если бы X не произошло, Y не произошло бы».

Здесь мы можем представить, что X — это некоторая функция в данных, а Y — результат или некоторое прогнозируемое значение для некоторого экземпляра. В отличие от прототипов, которые являются еще одним методом в категории «Объяснения на основе примеров», контрфактуалы не обязательно должны быть фактическими экземплярами из обучающих данных, но могут быть новой комбинацией значений признаков. [1]

Почему полезно?

Чем полезны контрфактические объяснения? Контрфактические объяснения полезны, потому что они позволяют нам понять, какие и в какой степени изменения должны быть внесены в определенные функции, чтобы мы могли достичь желаемого результата. Кристоф предлагает два сценария, иллюстрирующих этот момент.

Случай 1) Скажем, есть человек по имени Питер, который подал заявку на кредит, но получил отказ? Он хочет понять, почему его отклонили и как он может изменить результат (т. е. добиться одобрения заявки на кредит в следующий раз, каким-то образом улучшив свой профиль). Каково наименьшее изменение характеристик (доход, количество кредитных карт, возраст и т. д.), которое изменит прогноз с отклоненного на одобренный? [1]
Случай 2) Анна сдает квартиру. Она позволяет модели, которую она сделала, решать ее арендную плату. Она ожидала, что арендная плата составит 1000 евро или больше, но модель говорит ей, что это 900 евро. Изменяя только значения свойств, находящихся под ее контролем (встроенная кухня да/нет, домашние животные разрешены да/нет, тип пола и т. д.) с ее пониманием контрфактических объяснений, она обнаруживает, что если она разрешит домашних животных и установит окна с лучшими изоляция, она может взимать 1000 евро. Анна интуитивно работала с контрфактуальными случаями, чтобы изменить результат. [1]

Требования

Каковы некоторые требования к контрфактуальным экземплярам? Кристоф объясняет, что к контрфактическим случаям предъявляются четыре требования.

• Контрфактический экземпляр максимально точно воспроизводит предопределенный прогноз.

• Контрфактические экземпляры должны быть максимально похожи на экземпляры в отношении значений признаков.

• Вымышленные экземпляры также должны изменять как можно меньше функций.

• Контрфактический экземпляр должен иметь вероятные и реалистичные значения признаков. (Например, если некий контрфактический пример говорит Анне в случае 2 изменить свой возраст, это находится вне ее контроля.)

Методологии создания контрфактических случаев

Как мы генерируем контрфактические случаи, чтобы помочь нам двигаться вперед в принятии решений? Одним из методов, о котором может подумать каждый, является, вероятно, метод грубой силы — вручную воздействовать на различные функции и смотреть, как изменяется прогнозируемый результат. Это может быть самый простой способ, но может быть очень трудоемким и неэффективным. В главе 6 вышеупомянутой книги «Интерпретируемое машинное обучение» представлены методы, основанные на функции потерь, которые идентифицируют контрфактические экземпляры, которые минимизируют эту функцию (аналогично другим алгоритмам, таким как градиентный спуск, которые используют функции потерь и оптимизацию).

Метод Вахтера

В методе Вахтера функция потерь L определяется как:

L=L_pred+ λ L_dist

Более конкретно:

— это квадратичное расстояние между предсказанием модели для контрфактического экземпляра x’ и желаемым предопределенным результатом y’.

Сумма всех p признаковых манхэттенских расстояний, взвешенных с обратным медианным абсолютным отклонением (MAD) каждого признака, где MAD определяется следующим образом.

Предлагаемая функция расстояния имеет то преимущество перед евклидовым расстоянием, что она более устойчива к выбросам. Масштабирование с помощью MAD необходимо для приведения всех признаков к одному масштабу — не имеет значения, измеряете ли вы размер квартиры в квадратных метрах или квадратных футах. [1]

Наконец, λ уравновешивает расстояние в прогнозе (первый член) и расстояние в значениях признаков (второй член). Более высокое значение λ означает, что мы предпочитаем контрфактические прогнозы, близкие к желаемому результату y’, более низкое значение означает, что мы предпочитаем контрфактический экземпляр x’, который очень похож на x в значениях признаков. Если λ очень велико, будет выбран экземпляр с прогнозом, ближайшим к y’, независимо от того, насколько он далек от x.

Алгоритм, который генерирует контрфактические экземпляры, выглядит следующим образом:

1. Выберите экземпляр x для объяснения, желаемый результат y’, допуск ϵ и (низкое) начальное значение для λ

2. Выборка случайного экземпляра в качестве начального контрфактического.

3. Оптимизируйте потери, взяв в качестве отправной точки первоначально выбранный контрфакт.

4. Пока (f^(x’) — y’)² больше порога ϵ:

Увеличить λ
Оптимизируйте потери с текущим контрфактическим в качестве отправной точки.
Возвратите контрфактическое значение, которое минимизирует потери.

5. Повторите шаги 2–4 и верните список контрфактических экземпляров или тот, который минимизирует потери.

Этот алгоритм от Wachter был реализован в пакете Python под названием Alibi. [2]

реализация Wachter: https://docs.seldon.io/projects/alibi/en/stable/methods/CF.html

Пример реализации на данных MNIST: https://docs.seldon.io/projects/alibi/en/stable/examples/cf_mnist.html

Этот метод имеет явный недостаток, заключающийся в том, что он не принимает во внимание третье и четвертое требования контрфактических случаев (см. раздел требований выше).

Метод Дандла для создания контрфактических примеров

Статья Дандла преодолевает это ограничение/недостаток, которым обладает метод Вахтера, путем включения двух дополнительных компонентов в функцию потерь, которые соответствуют третьему и четвертому требованиям контрфактических случаев соответственно. Оригинал статьи Дандла можно найти здесь.

Метод Дандла определяет свою функцию потерь следующим образом [3]:

Целевые функции 1 и 2 аналогичны методу Вахтера, за исключением того, что Дандл использует для этих целей разные метрики расстояния. В то время как Вахтер использует евклидово расстояние и манхэттенское расстояние для O1 и O2, Дандл использует манхэттенское расстояние и расстояние Гауэра для этих двух целей. O1 и O2 в статье Дандла определяются следующим образом:

Две дополнительные цели в методе Дандла, которых нет в методе Вахтера:

В O4 Дандл делает вывод о том, насколько «вероятно» точка данных использует обучающие данные или другой набор данных (обозначается как X^obs). Мы видим в уравнении функции O4, что Дандл использует среднее расстояние Гауэра между x’ и ближайшей наблюдаемой точкой данных для измерения «вероятности» значений признаков контрфактического экземпляра.

Но обратите внимание, что по сравнению с методом Вахтера уравновешивающий член λ отсутствует. Поскольку мы не хотим сводить четыре цели в одну, суммируя их и взвешивая, мы оптимизируем все четыре условия одновременно. Для этого Дандл использует генетический алгоритм недоминируемой сортировки или сокращенно NSGA-II. NSGA-II — это вдохновленный природой алгоритм, который применяет закон Дарвина о «выживании наиболее приспособленных». Пригодность контрфактуала выражается его вектором целевых значений (o1, o2, o3, o4). Чем ниже четыре цели контрфактического экземпляра, тем он «лучше подходит». [1]

Преимущества и недостатки

Самым большим преимуществом контрфактических объяснений является их ясный характер. В отличие от других методов XAI, таких как LIME, для понимания того, как работает метод, не требуется никаких дополнительных предположений. С более практической точки зрения контрфактический метод не требует доступа к данным или модели. В книге «Интерпретируемое машинное обучение» объясняется, что контрфактический метод требует доступа только к функции прогнозирования модели, которая также может работать, например, через веб-API. [1] Это привлекательно для компаний, которые проверяются третьими сторонами или которые предлагают объяснения для пользователей, не раскрывая модель или данные. Компания заинтересована в защите модели и данных из соображений коммерческой тайны или защиты данных. Кроме того, этот метод работает и с системами, не использующими машинное обучение.

Но контрфактуальные объяснения имеют явный недостаток. Контрфактические случаи часто не уникальны. Их может быть несколько. Более того, они часто могут противоречить друг другу (например, один контрфактический пример говорит пользователю увеличить значения функции 1 и 2, а другой контрфактический пример говорит пользователю сохранять значение функции 1 и уменьшать значение функции 2). В этом случае пользователь должен решить, какой контрфактический пример или объяснение будет принят, в зависимости от того, насколько применимо каждое контрфактическое объяснение, сколько ресурсов доступно, какие существуют другие ограничения реального мира и т. д.

использованная литература

[1] К. Молнар, Интерпретируемое машинное обучение (2021 г.)

[2] Контрфактические случаи, Документация по пакету Алиби (2019 г.)

[3] С. Дандл, К. Молнар, М. Биндер и Б. Бишль, Multi-Objective Counterfactual Explanations (2020), Департамент статистики LMU Мюнхена