Считается, что сложные статистические модели часто повышают точность и эффективность. Но из-за того, что результаты не поддаются интерпретации, они мало используются организациями, учреждениями и правительствами. Отсюда их название - черные ящики. Интерпретируемость модели желательна в практических мировых проблемах, где решения могут иметь огромное влияние (например, уголовное правосудие, оценка кредитных рейтингов, риски для здоровья и т. Д.). Здесь представлены новые методы, которые формируют современное состояние для решения этой конкретной проблемы, пытаясь дать практикующим специалистам руководство по подходящим методам решения их проблем.

За последние два десятилетия приложения машинного обучения во многих областях значительно продвинулись вперед. Вместе с доступностью больших наборов данных и улучшенными алгоритмами экспоненциальный рост вычислительной мощности привел к беспрецедентному всплеску интереса к теме машинного обучения. Представление, оценка и оптимизация - это основные принципы машинного обучения, основа для понимания всех алгоритмов. Тем не менее, большинство из них не очень прозрачны, а недавние дополнения, такие как глубокие нейронные сети и НЛП, увеличивают точность экспоненциально, как и нежелание использовать их во многих практиках.

Локальные и глобальные модели. В случае очень сложных моделей объем локальной модели ограничивается только определенной небрежностью, и определяется наилучший прогноз. Напротив, глобальные модели нацелены на понимание всей модели и, следовательно, на понимание того, как особенности влияют на результат, а не на интерпретируемость.

Методы, не зависящие от модели - общие желательные свойства для
методов интерпретации следующие:

(i) Гибкость модели: относится к способности метода работать с любым типом модели.
(ii) Гибкость объяснения: это относится к тому факту, что существует несколько форм для представления объяснений. Например, естественный язык, визуализация выученных представлений или моделей, а также сравнение интересного наблюдения с другими на примерах.
(iii) Гибкость представления: это относится к способности метода не обязательно объяснять через входные функции . Например, классификатор текста может получать предложения в качестве входных данных, а объяснение может быть отдельным словом.

Двумя преимуществами этих методов, не зависящих от модели, являются (I) гибкость, поскольку в любой модели по нашему выбору можно использовать, поскольку она использует только входные и выходные данные для интерпретируемости, а не использует внутренний механизм модели. (II) Совместимость, сравнивать разные модели очень просто. С другой стороны, их минусы: (I) Отнимают много времени, эти методы могут занимать очень много времени из-за своей сложной природы. (II) Вариабельность выборки. Модель выбирает из данных только малую часть всей совокупности данных, интерпретируемость может отличаться в несколько раз.

Подходы к модельно-агностическим методам

(A) Подход к возмущениям: влияние и вклад функции в выходные данные и интерпретируемость модели объясняется следующим образом:

(i) Графики частичной зависимости (PDP) - это глобальная функция, которая использует функцию усреднения всех значений результата. Этот метод имеет два недостатка: один заключается в том, что если две переменные коррелированы, он дает плохую оценку, а другой, поскольку дисперсия не используется для В среднем положительные и отрицательные выходные значения могут уравновешиваться и давать несогласованные результаты.

(ii) Индивидуальное условное ожидание (ICE). Разница между ice и pdp заключается в том, что во льду для каждого наблюдения проводится линия, сохраняя другие переменные постоянными, но в PDF-формате отображается только среднее значение всех строк наблюдений переменной. В результате предотвращается проблема отмены значений, но проблема корреляции все еще существует.

(iii) M-графики - это то же самое, что и PDP, но здесь значения только соседних объектов нанесены на график с некоторыми искусственными значениями, не находящимися поблизости. Это в некоторой степени предотвращает проблему усреднения, но вводит проблему частичных решений корреляции.

(iv) Накопленные локальные эффекты (ALE) - на графиках Ale вместо самих значений отображаются различия между значениями. Это уменьшает проблему среднего значения и показывает относительный эффект вывода при изменении значений.

(v) Shapley Values ​​(SHAP) - Фигурные значения вычисляются в соответствии с каждым значением функции. Это может быть положительный или отрицательный вклад. Недостатком является то, что если значения функции большие, это становится дорогостоящим с точки зрения вычислений.

(vi) LOCO - метод исключения одной ковариаты использует оставление ковариаты и вычисление ошибки в выходных данных. В результате можно определить значимость ковариат по отношению к выходным данным.

(vii) Декомпозиция предиктора - здесь используются модели декомпозиции, в которых релевантность признаков определяется изменением значений конкретных признаков и сохранением постоянства остальных. Рассчитывается окончательный результат, и разница между наблюдаемым и фактическим выводом помогает вычислить релевантность признака. Недостатком этого метода является то, что он не может использоваться с наборами данных с высокой степенью корреляции.

(viii) Важность характеристик - в этом методе используются графики Pdp, ICE и значения shap для получения ici (индивидуальной условной важности), а среднее значение графиков ici показывает глобальную важность функции.

(ix) Чувствительный анализ - показатели чувствительности используются для наблюдения за изменением прогнозов при изменении характеристик с помощью кривой характеристик переменных эффектов, которая показывает влияние переменной во всей области.

(x) LIME - Local Interpretable model-agnostic Explanations использует локальные суррогатные модели. особенности возмущаются в непосредственной близости, и это повторяется случайным образом, что генерирует несколько наборов данных. такие модели, как линейная регрессия и т. д., обучаются с их помощью, чтобы определить, является ли модель правильной или неправильной. причины.

(xi) Векторы объяснений - этот метод находит вектор объяснения на основе условной вероятности байесовского классификатора. Этот вектор объяснения определяет локальные решения, принимаемые в задачах классификации. Недостатком является то, что вычисление коэффициентов градиента непросто.

(xii) Противоречия - вычисляются минимальные изменения, которые необходимо внести в значения характеристик, чтобы прогнозируемая выходная метка была заменена на фактическую. Это помогает объяснить, но это сложная проблема Np.

(xiii) Якоря - устанавливается якорь с набором инструкций. Эти инструкции представляют собой условия, если то. Это использует Lime с деревьями решений. Если условия соблюдены, другие функции игнорируются, поскольку они не окажут существенного влияния на результат.

(B) Контрастный подход:

(i) Естественно наблюдаемые контрфактические ситуации - для наблюдения схожих экземпляров, но с разными выходными метками, проблема оптимизации не будет применима, и, следовательно, мы применяем контрастный подход, когда экземпляры сравниваются с реальными экземплярами, а не с искусственными. Редкие экземпляры из-за проклятия размерности - это недостаток.

(ii) Прототип и критика - мы начинаем с поиска экземпляров, которые хорошо представляют данные (прототипы), а затем экземпляров, которые недостаточно хорошо представлены (критика)

Поля для конкретных моделей:

(A) Модели машинного зрения
Этот метод концентрируется на поиске частей и изображений, которые влияют на итоговую классификацию. Как правило, для таких случаев используются карты значимости. Они иначе называются чувствительными картами или картами атрибуции пикселей. Значения «важности» присваиваются отдельным пикселям с помощью вычислений окклюзии с градиентами. Эти значения влияют на итоговую классификацию. Пренебрежение этими значениями приведет к очень значительному снижению классификационной оценки. С помощью этих карт можно выявить недостатки модели. Слегка смещая изображение, скажем, на 1 пиксель, доказывается, что алгоритм можно обмануть, сделав другой прогноз. Поскольку невозможно сказать, что мы не столкнемся с такими проблемами в режиме реального времени, был сделан вывод, что модель не заслуживает доверия.

(i) Маски - Не так давно Ведальди и Фонг предложили метод, идентичный LIME. В этом методе, слегка смещая изображение, они пытались определить маску возмущения изображения, которая снижает оценку класса. Сосредоточившись на частях изображения, которые используются черным ящиком для вывода. Единственное отличие состоит в том, что в этой модели изображения редактировались явно.

(ii) Карты значимости в реальном времени - в 2017 году был разработан метод быстрого обнаружения значимости, который может применяться ко всем дифференциальным классификаторам изображений. Поскольку первоначальные подходы были дорогостоящими, так как они разрабатывали карту значимости путем удаления частей из входного изображения. Но в этом методе модель обучается таким образом, что она предсказывает карту за один проход с прямой связью для входного изображения. Этот метод не только доступен, но и быстр.

(iii) Плавный градиент - хотя карты значимости имеют общий смысл, но временами важные части, показанные алгоритмом, кажутся выбранными случайным образом. Так появилась другая модель под названием Smooth Grad. Здесь, чтобы сделать полученный результат заслуживающим доверия, делаются попытки уменьшить шум во входном изображении. Шумы вводятся в исходное изображение, так что колебания в результирующем изображении могут быть вычислены и, таким образом, выделяются важные части.

(iv) Послойное релевантное распространение - предложено Россом и др. в 2013 году. В этом методе роль каждого пикселя отображалась в виде тепловой карты. Он описывается как набор инструментов для деконструкции нелинейного решения и повышения прозрачности для пользователя. Было предложено два метода нахождения пиксельного вклада. Один из них использовал разложение Тейлора, а другой аналогичен обратному распространению, который более эффективен.

(v) Тепловые карты - это было предложено Цейлером и Фрегусом в 2013 году. В этом они связывают наиболее важные части входного изображения с решением нейронной сети по любому целевому классификатору. Обратное распространение и градиенты используются для поиска соответствующих пикселей.

(B) Общие нейронные сети
(i) Дифференцируемые модели - Росс и др. в 2017 году заявили, что этот метод не только указывает на ошибки в LIME или значимости Карты, но также предоставляет решение. Это также говорит о том, что иногда LIME выдает неправильные результаты, когда данные обучения и тестирования отличаются друг от друга. Если снабжены аннотациями, которые верны по неправильным причинам, этот метод помогает классификатору исследовать альтернативные возможности. Когда аннотации не предоставлены, подбирается образец одинаково достоверных объяснений, чтобы эксперт мог выбрать наиболее разумное из них.

(ii) DeepLIFT - предложенный Шрикумаром в 2017 году, он означает Deep Networks, а LIFT означает изучение важных функций. Здесь важные оценки вычисляются в глубокой нейронной сети. В этом методе каждый нейрон сравнивается с его эталонной активацией. Эту эталонную активацию можно извлечь путем активации каждого отдельного нейрона при применении эталонного входа.
(iii) Разложение Тейлора - результат классификации был разбит на вклад каждого входного элемента. Этот метод называется глубоким разложением Тейлора. Он получает доступ к наиболее важным пикселям изображения, объяснение которого отображается в виде тепловой карты.
(iv) Интегрированные градиенты - это простой метод, который можно быстро внедрить в DeepNetwork. Поскольку этот метод удовлетворяет инвариантности реализации и чувствительности, он хорошо поддерживается. Входное изображение считается базовой линией. Эта базовая линия имеет наименьшую оценку предсказания в n-м измерении. Здесь n - размер изображения. Затем выполняется ввод и определяется сегмент линии в n-м измерении, объединяющий оба изображения. Затем вычисляется интеграл по путям между линиями. Их визуализированную форму можно рассматривать как тепловую карту, которая немного трудна для понимания человеком.
(v) I-GOS - Было сделано наблюдение, что, когда тепловые карты не коррелируют с сетью, это может вводить людей в заблуждение. Иногда тепловые карты могут не дать верного объяснения. Был предложен другой метод, в котором обнаруживается наименьшая и наиболее гладкая область, которая обеспечивает максимальное влияние на уменьшение результирующей характеристики нейронной сети. Впрочем, этот метод может оказаться неэффективным и застрять в локальном минимуме. Поэтому был предложен другой метод, названный I-GOS, который использует интегрированные градиенты для улучшения процесса оптимизации маски. Этот процесс вычисляет направления спуска вместо обычных градиентов на основе интегрированных градиентов.

(vi) Град-камера - Градиент-взвешенное отображение активации класса или Град-камера выделяет важные области во входных данных для прогнозирования класса. Всякий раз, когда дается необоснованный прогноз, этот алгоритм дает соответствующее объяснение того, почему произошло то же самое.

(C) Методы дерева решений
Tree Explainer - Эта группа моделей содержит случайные леса, деревья с градиентным усилением и другие модели на основе деревьев. Они известны своей интерпретируемостью и точностью, то есть понятно, какие все функции использовались при прогнозировании. Текущие местные объяснения таких моделей:
1. Отчетность о пути принятия решения
2. Назначение вклада отдельных характеристик
3. Применение независимого от модели подхода
Ограничения:
1. Бесполезен, когда модель использует несколько деревьев для окончательного прогноза
2. Объяснение может быть предвзятым
3. Может быть медленным и страдать от изменчивости выборки

Заключение

В этом обзоре были рассмотрены актуальные и новые подходы, которые проливают свет на проблему объяснения отдельных примеров в машинном обучении. Объяснение предсказания модели становится все более желательным по мере распространения тенденции использования очень сложных моделей для объяснения алгоритмов. Некоторые модели интерпретации используют естественный язык, в то время как другие используют визуализацию моделей или выученные представления. Методы разделены на основе подхода, специфичного для модели, и подхода, не зависящего от модели. Подход Model Agnostic может использоваться в любом типе модели машинного обучения. В то время как подход, специфичный для модели, может применяться только к определенной группе моделей. Подход Model Agnostic был подразделен по таксономии на SHAP и LIME. Подход, специфичный для модели, был подразделен на вычислительные нейронные сети, общие нейронные сети и деревья решений. Недавно это семейство древовидных подходов превзошло нейронные сети.

Ссылки

[1] Альфредо Каррильо Луис Ф. Канту Алехандро Норьега
[email protected] [email protected] [email protected] https://arxiv.org/pdf/2104.04144.pdf
[2] Роберт Пельцер. Борьба с терроризмом с использованием данных из социальных
СМИ. European Journal for Security Research, 3 (2): 163–179,
2018.
[3] Джон Клейнберг, Сендхил Муллайнатан и Маниш Рагхаван.
Неотъемлемые компромиссы в справедливом решении оценок риска.
препринт arXiv arXiv: 1609.05807, 2016.