Как объяснимого ИИ: объяснимость после моделирования

В первых двух частях нашего обзора Как XAI мы рассмотрели методологии объяснимости до моделирования и объяснимого моделирования, которые фокусируются на объяснимости на этапе набора данных и во время разработки модели. Тем не менее, это относительно второстепенные области интереса по сравнению с объяснимостью постфактум, а объяснимость после моделирования - это то, на чем большинство ученых XAI сосредоточили свое внимание и исследования.

Постмоделирующая объяснимость

В настоящее время модели искусственного интеллекта часто разрабатываются только для прогнозирования. Таким образом, большая часть литературы по XAI посвящена объяснению заранее разработанных моделей. Такое смещение фокуса наряду с недавней популярностью исследований XAI привело к разработке многочисленных и разнообразных методов апостериорной объяснимости.

Разобраться в этой обширной литературе сложно из-за множества подходов к XAI. Чтобы разобраться в методах апостериорной объяснимости, мы предлагаем таксономию или способ разбивки этих методов, который показывает их общую структуру, организованную вокруг четырех ключевых аспектов: цель, то, что должно быть объяснено о модели; водители, что вызывает то, что вы хотите объяснить; семейство объяснений, как объясняющая информация о драйверах, вызывающих цель, передается пользователю; и оценщик, вычислительный процесс фактического получения объяснения.

Например, популярный подход Локальные интерпретируемые объяснения, не зависящие от модели (LIME) обеспечивает объяснение для экземпляра предсказания модели, цели, с точки зрения входных характеристик, драйверов, с использованием оценок важности, семейства объяснений, вычисленных с помощью локальных возмущения входа модели, оценщика.

В следующих разделах мы подробно обсудим эту четырехаспектную таксономию апостериорной объяснимости (FATE). Кроме того, мы приводим примеры связанных методологий для обзора литературных работ.

Объяснение целей

Цель определяет объект метода объяснимости, что делает его наиболее важным аспектом таксономии FATE. Цели могут различаться по типу, объему и сложности. Мы представим обзор каждого из этих трех источников целевой вариации.

Экосистема AI включает пользователей с различными ролями. Тип цели объяснения часто определяется в соответствии с ролевыми целями конечных пользователей. В общем, существует два типа целей: внутренняя vs внешняя, которую также можно понимать как механистическую vs функциональную.

Эксперты по ИИ часто требуют механистического объяснения некоторых компонентов внутри модели. Например, создателям модели может потребоваться понять, как слои глубокой сети реагируют на входные данные, чтобы отлаживать или проверять модель. Напротив, неспециалистам часто требуется функциональное объяснение, чтобы понять, как производятся некоторые выходные данные вне модели. Например, исследователям моделей может потребоваться понимание того, как входные данные используются моделью для составления прогнозов, чтобы гарантировать, что модель заслуживает доверия, не предвзята или соответствует нормативным требованиям.

Тип цели объяснения часто определяется в соответствии с ролевыми целями конечных пользователей.

Кроме того, цели могут различаться по своему объему. Цели внешнего типа обычно представляют собой некоторую форму прогнозирования модели. Их область действия может быть предсказанием экземпляра (или локальным объяснением), например Объяснение предсказания для экземпляра класса или все предсказания модели (также известные как глобальные объяснения), например Объяснение прогнозов для всех экземпляров класса. Цели внутреннего типа также различаются в зависимости от архитектуры базовой модели. Архитектура модели, представляющая интерес в литературе XAI, часто представляет собой архитектуру нейронной сети. Соответственно, объем внутренних целей может быть отдельным нейроном или слоями в нейронной сети.

Наконец, цели могут различаться по своей сложности. Они могут быть одиночным числовым или категориальным выходом, например Объясняя предсказания классификатора или последовательность слов, например Объяснение предсказания модели последовательность-последовательность. Сложность цели оказывает значительное влияние на выбор семейства объяснений, как обсуждается далее в этом разделе.

Объяснение драйверов

Объяснение целей может быть вызвано множеством факторов. Таксономия FATE определяет драйверы как конкретный набор причинных факторов, влияние которых на цель описывается объяснением. Наиболее распространенный тип драйверов - это входные функции для модели AI. Например, объяснения, которые определяют относительный вклад каждого входного пикселя в предсказания классификатора изображений, обычно изучаются в сообществе XAI.

Необработанные особенности модели ИИ не всегда являются лучшим выбором для объяснения причин. Например, объяснение предсказаний классификатора изображений с точки зрения отдельных входных пикселей может привести к объяснениям, которые будут слишком зашумленными, слишком дорогими для вычисления и, что более важно, трудными для интерпретации. В качестве альтернативы мы можем полагаться на более интерпретируемое представление входных функций, например непрерывный участок похожих пикселей (также известный как суперпиксели) в случае предсказания классификатора изображений. Определение подходящих объяснительных драйверов связано с обсуждением разработки объяснимых функций, представленным ранее в разделе Объясняемость перед моделированием.

Возможности ввода - не единственный выбор драйверов объяснения. Все факторы, влияющие на развитие модели ИИ, могут быть драйверами объяснения. Эти факторы включают (но не ограничиваются ими) обучающие образцы, настройки гиперпараметров, выбор алгоритма оптимизации или даже выбор архитектуры модели.

В частности, Кох и Лян предложили подход к объяснению предсказаний экземпляров моделей ИИ с точки зрения обучающих выборок, которые вредны или вредны. Их решение основано на классической методике надежной статистики, называемой функциями влияния. Для данного прогноза экземпляра функции влияния предоставляют эффективный способ оценки влияния повышения веса каждой обучающей выборки на функцию потерь модели. Соответственно, обучающие выборки, увеличение веса которых приводит к ухудшению (увеличению) функции потерь, считаются вредными и наоборот.

Все факторы, влияющие на развитие модели ИИ, могут быть драйверами объяснения.

Некоторые исследования посвящены тому, чтобы позволить драйверам быть произвольным понятием, если это можно определить с помощью набора примеров. Например, это позволяет проверить, способствует ли концепция полосатых текстур предсказанию зебр для классификатора изображений. Идея сначала вычислить вектор активации концепции (CAV) для данной концепции. CAV получается путем обучения линейного классификатора, который разделяет положительные и отрицательные примеры данной концепции, используя их представление, полученное с помощью скрытого слоя нейронной сети. Последним шагом является оценка производной потери прогнозирования данного класса, например class Zebra, в направлении данной CAV, например Полосатая текстура.

Расшифровка семейств

Апостериорное объяснение направлено на передачу некоторой информации о том, как цель вызвана драйверами данной модели ИИ. Аспект семейства объяснений таксономии FATE определяет форму этой информации. Крайне важно, чтобы семейство объяснений было выбрано таким образом, чтобы его информационное содержание было легко понимаемым (то есть интерпретируемым) пользователем, которым обычно является человек. Кроме того, его следует выбирать так, чтобы можно было генерировать объяснения, которые максимально соответствуют сложности модели (также называемые полными). Часто приходится идти на компромисс, связанный с выбором семейства объяснений для обеспечения интерпретируемости и полноты.

Оценки важности (также известные как тепловые карты), возможно, являются наиболее распространенным типом семейств объяснений. Индивидуальные оценки важности предназначены для сообщения об относительном вкладе, внесенном каждым драйвером объяснения в заданную цель; Другими словами, чем выше оценка, тем эффективнее водитель. Например, Лундберг и Ли предложили SHAP (Аддитивные объяснения Шэпли), унифицированную структуру для генерации апостериорных локальных объяснений в форме аддитивной атрибуции признаков. Платформа использует значения Шепли для оценки важности каждой входной функции для данного прогноза экземпляра. Ценности Шепли - это классический подход теории кооперативных игр для оценки предельного вклада игроков в альянс. Предельные вклады получаются усреднением по каждой возможной последовательности, в которой игроки могли быть добавлены в игру.

Часто при выборе семейства объяснений приходится идти на компромисс, чтобы обеспечить интерпретируемость и полноту.

Правила принятия решений - еще одно распространенное семейство объяснений. Каждое правило принятия решения обычно имеет форму если условие, то результат, где результат представляет собой прогноз модели ИИ, а условие - это простая функция, определенная для входных функций. Правила принятия решений могут быть упорядоченным списком, также известным как список решений, или неупорядоченным набором, также известным как набор решений. Например, метод KT извлекает набор правил для полного описания модели нейронной сети. Однако такие глобальные объяснения, основанные на правилах, часто требуют слишком больших вычислительных затрат и не могут полностью охватить сложность современных глубоких сетей. Чтобы устранить эти недостатки, Ribeiro et al. предложите метод привязки для извлечения локальных правил, которые объясняют предсказания экземпляров любой модели черного ящика.

Деревья решений - это семейство объяснений, аналогичных правилам принятия решений, и их можно даже линеаризовать в набор правил принятия решений. В отличие от правил принятия решений, они структурированы как граф, где внутренние узлы представляют собой условные тесты для входных функций, а конечные узлы представляют результаты модели. Вдобавок, в отличие от правил принятия решений, в дереве решений каждый входной пример может удовлетворять только одному пути от корневого узла к конечному узлу. Метод DeepRED предоставляет решение для извлечения дерева решений для аппроксимации данной модели глубокой нейронной сети. Деревья решений, созданные с помощью метода DeepRED, демонстрируют высокое качество. Однако они могут быть довольно большими, поэтому их трудно интерпретировать, а также дорого получить.

Графики зависимостей - еще одно семейство объяснений. Они нацелены на то, чтобы сообщить о том, как значение цели изменяется, поскольку значение драйверов данного объяснения изменяется, другими словами, как значение цели зависит от значения драйвера. График частичной зависимости (PDP) является примером этого семейства объяснений. PDP показывает ожидаемый прогноз модели как функцию значений заданных характеристик. Индивидуальное условное ожидание (ICE) - еще один пример этого семейства объяснений. Для данного случая ICE показывает ожидаемый прогноз модели как функцию значений заданных характеристик.

Общие семейства объяснений, описанные выше, часто предполагают, что целью является простая числовая или категориальная переменная. Они могут быть неадекватными, если цель более сложная и имеет некоторую структуру. Например, объяснения оценки важности не могут правильно описать предсказания модели языкового перевода, в которой последовательность входных слов переводится в последовательность выходных слов. Альварес-Мелис и Яаккола предложили подход причинно-следственный рационализатор структурированного вывода (SOCRAT) для извлечения объяснений формы двудольного графа для такой модели. Первый набор узлов представляет входные слова для модели, а второй набор узлов представляет выходные слова модели. Ребра представляют собой предполагаемое влияние каждого входного слова на каждое выходное слово.

При объяснении внутренней работы модели семейства объяснений часто представляют собой некоторый тип пользовательских визуализаций, адаптированных к архитектуре целевой модели. Например, Strobelt et al. разработал LSTMViz, инструмент для понимания внутренней работы специальных семейств нейронных сетей, называемых долгой краткосрочной памятью (LSTM), предназначенный для обучения на основе последовательных данных. По своей сути LSTMViz предоставляет решение для визуализации развития так называемых скрытых состояний сети LSTM при обработке последовательности входных данных. Другой пример - интерактивный инструмент визуализации GAN Lab. Это позволяет неспециалистам лучше понять тонкости обучения модели генеративной состязательной сети (GAN) путем визуализации промежуточных результатов, полученных в ходе этого процесса.

Устные объяснения, пожалуй, наиболее удобное для пользователя семейство объяснений, поскольку они обычно предоставляются в форме естественного языка, аналогичной человеческим объяснениям. Ранние работы в этой области были в основном шаблонными и, следовательно, весьма ограниченными. Более современные методы, основанные на глубоком обучении, способны генерировать текст на естественном языке в качестве обоснования или даже в мультимодальном режиме, а именно текст, дополненный визуальным обоснованием. Хотя на первый взгляд такие объяснения кажутся привлекательными, они имеют два основных ограничения. Во-первых, они (в лучшем случае) косвенное объяснение внутренней логики модели. Во-вторых, они мало полезны для понимания ошибок прогнозирования модели.

Противодействующие объяснения описывают наименьшее изменение в драйверах объяснения, необходимое для изменения цели на заранее определенный результат. Это все более важное семейство объяснений. Часто драйверы объяснения являются входными характеристиками, а целью является прогноз модели. Рассмотрим модель, используемую для ссуд и кредитования клиентов, при которой заявка отклоняется. Противоположным объяснением этого решения об отказе может быть следующее: Если бы у заявителя был годовой доход на 10 000 долларов выше, заявка была бы принята. Обычно существует множественное контрфактическое объяснение данной цели. Эту проблему можно решить, выбрав наиболее подходящее объяснение, основанное на количестве функций, которые необходимо изменить, а также на том, действительно ли такие изменения функций будут иметь действие. Чтобы генерировать контрфактические объяснения, мы можем определить функцию потерь, которая способствует малейшему изменению минимально возможного количества входных характеристик, необходимых для максимально приближенного прогнозирования модели к желаемому результату. Затем эту функцию потерь можно оптимизировать либо напрямую, либо с помощью так называемого алгоритма растущих сфер.

Противодействующие объяснения описывают малейшее изменение драйверов объяснения, необходимое для изменения цели на заранее определенный результат.

Объяснение методов оценки

Таксономия FATE относится к вычислительному процессу, используемому для получения объяснений, как к аспекту оценки. Методы оценки объяснения довольно широки, но в основном они различаются с точки зрения применимости модели и лежащего в основе механизма. Мы представим обзор методов оценки объяснения в соответствии с этими двумя источниками вариации.

Некоторые методы оценки не зависят от модели и могут применяться к любой модели черного ящика, тогда как другие разработаны только для конкретной архитектуры модели. Например, рассмотренный ранее метод LIME теоретически может быть применен к любой модели, если мы можем построить значимые возмущения входных данных и наблюдать соответствующие выходы модели. Это не означает, что объяснения, полученные с помощью LIME или любого независимого от модели средства оценки, всегда информативны. Например, механизм локальных возмущений, используемый LIME, должен быть расширен, чтобы можно было объяснять модели со сложными выходными данными.

Методы оценки объяснения довольно широки, но в основном они различаются с точки зрения применимости модели и лежащего в основе механизма.

Методы, специфичные для модели, обычно нацелены на глубокие нейронные сети, поскольку они популярны и трудны для понимания. Например, подход Градиентно-взвешенное отображение активации классов (Grad-CAM) разработан для создания визуальных объяснений специально для сверточных нейронных сетей. Он берет карту признаков последнего сверточного слоя, а затем взвешивает каждый канал в этой карте признаков на основе градиента целевого класса по отношению к каналу. Затем для получения визуального объяснения применяется объединение глобального среднего значения по двум измерениям градиентов класса с последующей активацией RELU.

Методы оценки объяснения могут быть исследованы в соответствии с их механизмом . Мы выделили четыре основных механизма для оценки объяснений, а именно: возмущение, обратное распространение, прокси и оптимизация активации.

Некоторые методы апостериорной объяснимости основаны на механизмах возмущения . Идея состоит в том, чтобы генерировать возмущения желаемых драйверов объяснения, анализировать их влияние на заданную цель и резюмировать все это, используя семейство объяснений с оценкой важности. Например, рассмотренный ранее метод LIME извлекает локальные объяснения предсказания экземпляра с точки зрения входных характеристик путем создания локальных возмущений этих функций и фиксации их воздействия с помощью линейной модели. Точно так же подход Функции влияния генерирует объяснения предсказания экземпляра в терминах обучающих выборок, изменяя их вес и оценивая его влияние на параметры модели и, в конечном итоге, потери модели для данного предсказания экземпляра.

Методы механизма возмущений имеют два основных преимущества: их обычно легко реализовать, и они не ограничиваются конкретной архитектурой модели. У них также есть недостатки: они относительно дороги в вычислительном отношении, поскольку требуют обработки значительного числа возмущенных входных данных через модель для генерации объяснения. Это особенно сложная задача для моделей с входными данными большой размерности, поскольку количество требуемых возмущений быстро растет вместе с количеством функций. Более того, механизм возмущения может недооценивать важность особенностей, которые превысили свой вклад, поскольку их возмущение больше не будет оказывать воздействия. Наконец, создание значимых возмущений драйверов может быть проблемой. Например, каждая функция часто нарушается, заменяя ее неинформативным значением с максимальным воздействием. Использование эвристики или специального выбора для неинформативного ссылочного значения может привести к ненадежным объяснениям. В частности, для обеспечения согласованности объяснений с распределением обучающих данных опорные значения должны выбираться из возможных альтернативных значений.

Каркас Shapley Values можно рассматривать как частный случай механизма возмущения. Ключевая интуиция, лежащая в основе этой структуры, заключается в том, что из-за взаимодействия между драйверами объяснения вклад каждого драйвера в заданную цель может варьироваться в зависимости от других драйверов, которые уже введены в данную модель. Соответственно, предельный вклад каждого драйвера, также известный как значение Шепли, вычисляется путем изучения всех возможных возмущений ввода других драйверов. Хорошо известный метод SHAP, обсуждавшийся ранее, полагается на эту структуру для извлечения локальных объяснений предсказаний экземпляра модели. Вычисление точных значений Шепли может быть дорогостоящим. Соответственно, ряд эффективных методов оценки значений Шепли был предложен для конкретных архитектур моделей, таких как ансамбли деревьев и глубокие сети.

Меры Количественное входное влияние (QII) - это семейство мер для определения степени влияния входных данных модели на ее выходы. Они создают гипотетическое распределение входных данных посредством вмешательства, а затем количественно определяют результирующую разницу в количестве, представляющем интерес, которое может быть экземпляром или набором выходных данных модели. В принципе, их можно отнести к определенному типу механизма возмущений, который может оценивать влияние отдельного человека или набора входных характеристик на экземпляр или набор выходных данных модели. Важно отметить, что измерения QII тщательно учитывают корреляции входных характеристик при оценке их влияния.

Каркас Shapley Values можно рассматривать как частный случай механизма возмущения.

Механизм обратного распространения обычно используется для генерации апостериорных объяснений для моделей глубокой сети. Получаемые в результате объяснения часто являются оценками важности с точки зрения входных характеристик модели. Чтобы получить эти оценки, механизм обратного распространения начинается со слоя, который создает данную цель, например logit определенного класса и оценивает вклад нейронов в слое, предшествующем этой цели. Этот процесс повторяется слой за слоем, пока не будут получены вклады функций входного слоя. Существует несколько методов объяснимости, основанных на обратном распространении. Некоторые из наиболее ярких примеров включают послойное распространение релевантности (LRP), DeepLIFT, Guided Backprop (GB), SmoothGrad и Integrated Gradients (IG).

Эти методы различаются в основном тем, как они оценивают вклад предыдущего слоя. В частности, вклады могут быть оценены на основе частичных градиентов активации целевого нейрона по отношению к нейронам предыдущего слоя (также известный как анализ чувствительности), как в методах GB и SmoothGrad. В качестве альтернативы их можно оценить, разложив значение активации целевого нейрона на составляющие его значения, полученные с предыдущего уровня (также известный как подход разложения), как в методах LRP и DeepLIFT. Вклады, оцененные с помощью анализа чувствительности, в основном относятся к локальным вариациям активации нейронов-мишеней, а не к ее значению. Умножение вкладов, основанных на чувствительности, на активацию нейронов предыдущего слоя может облегчить эту проблему, как и в методе IG. Фактически, было показано, что методы вклада, основанные на декомпозиции, и методы, подобные подходу IG, тесно связаны.

Методы, основанные на механизме обратного распространения, требуют только одного или нескольких проходов вывода через модель для генерации объяснения. Это делает их более эффективными с точки зрения вычислений по сравнению с методами, основанными на механизме возмущений. С другой стороны, механизм обратного распространения применим только к глубоким сетям. Кроме того, объяснения, полученные с использованием этого механизма, могут быть недостоверными. Некоторые из новейших методов, таких как DeepLIFT и LRP, обещают предоставить более надежные объяснения. Однако производительность DeepLIFT в значительной степени зависит от выбора точки отсчета, которая должна определяться пользователем. Аналогичным образом было показано, что LRP имеет проблемы с числовой нестабильностью.

Другой подход к получению апостериорных объяснений сложной модели состоит в том, чтобы имитировать ее с помощью более простой и объяснимой модели с сопоставимой производительностью, а именно, прокси-механизм. Этот механизм часто применяется для замены сложных глубоких нейронных сетей более объяснимыми моделями, такими как деревья решений или правила принятия решений. Ранние работы в этой категории были применимы только к мелким нейронным сетям. Однако более современные методы нацелены на модели глубоких нейронных сетей. Например, рассмотренный ранее подход DeepRED позволяет строить деревья решений, которые точно представляют модель глубокой сети. Однако сгенерированные деревья решений могут быть довольно большими и, следовательно, не столь объяснимыми.

Один из подходов к решению этой проблемы - изучить прокси-модели, которые не имитируют поведение сложной модели в глобальном масштабе. Например, подход якорей направлен на извлечение локальных правил принятия решений, которые имитируют только предсказание экземпляра данной модели. Точно так же БЕТА-метод изучает небольшое количество наборов решений, каждый из которых имитирует поведение данной сложной модели в четко определенной области ее входного пространства признаков.

Механизм оптимизации активации часто используется для объяснения внутренней работы моделей глубоких сетей. Его объяснения получаются путем поиска входного шаблона, который дает максимальный (или минимальный) отклик для внутреннего компонента модели в качестве цели, например конкретный нейрон. Эта задача поиска, в свою очередь, может быть сформулирована как задача оптимизации и решена с использованием градиентного подхода. Эта процедура аналогична той, которая используется для обучения модели, где целями оптимизации являются входные функции, а не параметры модели.

К сожалению, без добавления регуляризации входные шаблоны, полученные с помощью механизма оптимизации активации, часто напоминают высокочастотный шум. Для решения этой проблемы были предложены различные семейства ограничений регуляризации. Например, мы можем попытаться напрямую уменьшить высокочастотный шум, явно исключив отклонение между соседними входными функциями. Однако такое ограничение регуляризации может также подавлять допустимые высокочастотные функции, например края входного изображения.

Механизм оптимизации активации часто используется для объяснения внутренней работы моделей глубокой сети.

Что дальше?

Было предложено множество методов для объяснения заранее разработанных моделей ИИ. Они различаются с точки зрения цели объяснения, драйвера, семейства и механизма извлечения. XAI является активной областью исследований, и постоянно разрабатываются новые и улучшенные методы. Такое разнообразие вариантов может затруднить для практикующих XAI выбор наиболее подходящего подхода для конкретного приложения.

Чтобы облегчить эту проблему, приложение к этой серии представляет собой снимок некоторых из наиболее заметных методов объяснимости после моделирования. Каждый метод охарактеризован в соответствии с четырьмя аспектами, введенными таксономией FATE, чтобы систематически позиционировать его в основной части литературы XAI. Кроме того, предоставляется обзор некоторых готовых пакетов программного обеспечения XAI.

Особая благодарность Ксавье Снельгроув, Эльназ Баршан, Линдси Брин, Сантьяго Сальсидо и Манон Груаз за ценные комментарии и иллюстрации. Отредактировал Питер Хендерсон.