Введение в интерпретируемое машинное обучение

Автор Соджин Бан

Мы стали свидетелями появления сложных автономных систем для выполнения задач, таких как беспилотные автомобили, рекомендации по продуктам, языковые переводчики и таргетированная реклама. Эти системы управляются искусственным интеллектом (ИИ), системами глубокого обучения, которые извлекают выгоду из массивных наборов данных и высокопроизводительных инфраструктур, которые достигли производительности, близкой к человеческому уровню. Проблема в том, что мы не совсем понимаем, как работает ИИ и почему он принимает решения.

Что такое система черного ящика?

Мы называем систему черным ящиком, когда:

  1. Она настолько сложна, что ее логика непонятна людям, даже когда мы знаем точную форму системы. Например, человек, который создает и обучает глубокую нейронную сеть, знает, какие типы слоев и функции активации используются, как они распространяются обратно и каковы веса, однако он, вероятно, не знает почему Глубокая нейронная сеть выдает свои решения.
  2. Его механизм принятия решений неизвестен или секретен для заинтересованных сторон. В этом случае мы знаем только выходные данные системы с конкретными входными данными, но не почему и как они туда попали. Например, мы до сих пор не до конца понимаем, как работает человеческий интеллект. Другой пример может быть, когда компания отказывается раскрыть механизм принятия решений своего программного обеспечения для управления делами своим заинтересованным сторонам, потому что он считается коммерчески чувствительным.

Черные ящики могут быть опасны.

Полагаясь на решение системы черного ящика, не зная его логики, мы рискуем потерять ответственность. В мае 2016 года в отчете утверждалось, что программное обеспечение для оценки рисков, используемое судьями во время вынесения приговоров по уголовным делам в США, было предвзято против чернокожих. Northpointe, компания, предоставляющая программное обеспечение, отказалась раскрыть механизм принятия решений, который может быть вызван скрытыми предубеждениями или неожиданными ошибками, которые привели к неверным оценкам. Эффекты черных ящиков могут изменить жизнь при использовании в ситуациях, которые имеют серьезные последствия для неприемлемых результатов, таких как принятие медицинских решений, уголовное правосудие и беспилотные автомобили.

С существованием систем черного ящика возникает естественная потребность в их интерпретируемости. Компании, занимающиеся беспилотными автомобилями, должны иметь возможность объяснять, насколько их автомобили безопасны. Когда наша онлайн-заявка на получение кредита или ссуды отклоняется автономной системой принятия решений, мы должны иметь доступ к объяснению того, почему и как было принято это решение. В подобных ситуациях взлом черного ящика позволит нам обнаружить неожиданные предубеждения или ошибки и способы улучшить систему. Фактически, эта потребность в интерпретируемости недавно стала официальной: Общие правила защиты данных Европейского Союза требуют, чтобы автономные системы принятия решений, которые имеют юридические последствия или другие столь же важные последствия для человека, должны предоставлять понятные для человека объяснения.

Что это значит, если система «интерпретируема»?

Система поддается интерпретации, если мы, люди, можем ее понять. Или, другими словами, система интерпретируема, если ее можно объяснить понятными человеку терминами.

По сути, интерпретируемость означает способность объяснять или представлять, как работает система или почему система принимает решение в понятных человеку терминах.

Что такое интерпретируемое машинное обучение?

Интерпретируемое машинное обучение (IML) включает:

  1. Самообъясняемая модель решения машинного обучения (ML) для выполнения задач, которая строится (изучается) со своим собственным объяснением.
  2. Модель машинного обучения, разработанная как инструмент для объяснения другой независимой от нее системы.

Обратите внимание, что целевая система не ограничивается системами машинного обучения, это может быть что угодно, если она может выдавать количественно определенные выходные данные с учетом входных данных.

Как сделать систему интерпретируемой?

Итак, что именно нам нужно сделать, чтобы понять систему? Существуют различные способы, в зависимости от цели желаемого объяснения.

Рисунок 1 - это пример существующего подхода, представленного в карте значимости. Выделенные пиксели указывают атрибуты каждого пикселя входного изображения, которые приводят модель классификации изображений CNN к решению, что, например, изображение собаки должно быть помечено как «собака».

Рисунок 2 показывает предоставленный LIME пример интерпретации классификации изображений нейронной сетью Google Inception. Цветные пиксели объясняют, почему данное изображение классифицируется как «Электронная гитара», «Акустическая гитара» или «Лабрадор». Хотя объяснения LIME и Saliency схожи в том, что они предоставляют вам атрибутивные пиксели, которые приводят к каждому решению, LIME имеет преимущество перед Saliency - он не зависит от системы и может применяться к любому типу системы черного ящика, даже если мы не знаю точного вида системы.

L2X, другой системно-независимый подход, такой как LIME, предоставляет ключевые слова для конкретных экземпляров, чтобы объяснить систему классификации настроений CNN для текстовых данных обзора фильмов из Large Movie Review Dataset, IMDB. На рис. 3 выбранные ключевые слова, такие как любовь, победа, очарование и замечательно, объясняют положительный прогноз модели о просмотре фильма, в то время как такие ключевые слова, как нереалистичный, скучно , устал и извините выбираются для просмотра фильма с отрицательным прогнозом.

L2X также предоставляет патчи ключей для конкретных экземпляров, содержащие 4 X 4 пикселя, чтобы объяснить систему классификации CNN, обученную на наборе данных рукописных цифр MNIST (только из цифр 3 и 8). Рисунок 4 показывает, как система распознает разницу между 3 и 8.

ACD обеспечивает иерархию значимых фраз и важных оценок для каждой идентифицированной фразы (синий для положительного, красный для отрицательного) с помощью системы классификации настроений LSTM, обученной на Стэнфордском банке дерева настроений. На рисунке 5 эта иерархия используется для объяснения того, почему система сделала неверный прогноз. ACD правильно передал настроение положительной фразы отличный состав ансамбля и отрицательной фразы не выводить это искреннее предприятие из привычного. Однако, когда две фразы были объединены, система выучила положительное настроение и неточно предсказала отрицательную фразу как положительную.

TCAV объясняет внутреннее состояние нейронной сети в терминах понятных человеку концепций. На рис. 6 изображения (изображения в полоску и изображения людей в галстуках) отсортированы по их отношению к концепции (в этих случаях концепции «генеральный директор» и «образцовая женщина» соответственно ). Понятие «генеральный директор», усвоенное нейронной сетью, объясняется связанными с концепцией полосатыми изображениями, а понятие «женщина-модель», которое было изучено нейронной сетью, объясняется связанными с концепцией изображениями галстуков.

Как вы оцениваете интерпретируемые подходы к машинному обучению?

Хотя выбор оценки варьируется в зависимости от специфики сделанного утверждения, существуют общие пожелания в отношении интерпретируемой модели.

Интерпретируемость: насколько интерпретация понятна людям.

Например, Chen et al. (2018) из приведенного выше примера L2X попросили людей на Amazon Mechanical Turk (AMT) вывести результат (тональность), учитывая объяснение, состоящее из конкретных ключевых слов (или предложений), используемых системой классификации тональности для текстовых фильмов. обзоры.

Singh et al. (2018) из приведенного выше примера ACD задали одиннадцати аспирантам Калифорнийского университета в Беркли с определенным уровнем знаний о машинном обучении два типа вопросов: какая модель, «думают», имеет более высокую точность прогнозов и насколько они « доверять ».

Точность: измерение уровня конкуренции модели IML, когда модель работает и как модель для выполнения задач, и как инструмент для объяснения себя. Он определяется традиционными показателями эффективности прогнозирования, такими как оценка точности, оценка F1, оценка AUC и т. Д.

Верность: насколько точно модель IML имитирует поведение системы черного ящика. Полное описание модели (локально или глобально) используется для оценки ее приближения к системе черного ящика. Он информируется с помощью традиционных показателей эффективности прогнозирования в отношении результатов системы черного ящика.

Как мы это делаем в Petuum.

Объяснимое решение искусственного интеллекта для диагностики медицинских пациентов

Мы создали решение с объяснимым искусственным интеллектом (XAI) для повышения точности и своевременности постановки диагнозов пациентам. Он находит хорошо интерпретируемые источники прогнозов, на которые имеются ссылки, что значительно экономит время врачей и снижает количество медицинских ошибок.

Интерпретируемый подход машинного обучения с использованием принципа узких мест с глубокой вариационной информацией

Мы разработали новый системно-независимый интерпретируемый подход к машинному обучению с использованием принципа узких мест с вариационной информацией. Он извлекает ключевые когнитивные характеристики, которые (1) максимально сжаты о вводе и (2) информативны о решении, принятом системой черного ящика на этом вводе, которое действует как информационное узкое место и называется минимальной достаточной статистикой.

Вот пример объяснения, предоставляемого нашим подходом. Он выбирает пять ключевых слов (красного цвета), которые передают наиболее сжатую и достаточную информацию о прогнозируемом настроении (положительном) с учетом обзора фильма IMDB.

С появлением сложной автономной системы принятия решений ИИ в жизненно важных приложениях потребность в интерпретируемости также получила большое внимание в сообществах ИИ. IML стремится взломать систему черного ящика и дать объяснение того, как система работает или почему система принимает решение в понятных человеку терминах. Большинство подходов, которые мы представили в этом посте, предоставляют простые объяснения того, почему конкретное решение о черном ящике принимается с помощью атрибуции функции. Потребуется разработать более сложные подходы к IML, чтобы объяснить конкретный запрос в более понятных для человека терминах.

Дальнейшее чтение

Вот рекомендуемые обзорные статьи по IML:

  • Липтон, Захари К. «Мифы об интерпретируемости моделей». Очередь 16.3 (2018): 30.
  • Доши-Велес, Финал и Бин Ким. «К строгой науке интерпретируемого машинного обучения». Препринт arXiv arXiv: 1702.08608 (2017).
  • Гвидотти, Риккардо и др. «Обзор методов объяснения моделей черного ящика». Вычислительные исследования ACM (CSUR) 51,5 (2018 г.): 93.

И вот статьи, упомянутые в этом посте:

  • [ACD] Сингх, Чандан, У. Джеймс Мердок и Бин Ю. «Иерархическая интерпретация прогнозов нейронной сети». Препринт arXiv arXiv: 1806.05337 (2018).
  • [LIME] Рибейро, Марко Тулио, Самир Сингх и Карлос Гестрин. «Почему я должен вам доверять ?: Объяснение прогнозов любого классификатора». Материалы 22-й международной конференции ACM SIGKDD по открытию знаний и интеллектуальному анализу данных. ACM, 2016.
  • [L2X] Чен, Цзяньбо и др. «Учимся объяснять: теоретико-информационная перспектива интерпретации модели». Препринт arXiv arXiv: 1802.07814 (2018).
  • [Карта значимости] Симонян, Карен, Андреа Ведальди и Эндрю Зиссерман. «Глубоко внутри сверточных сетей: визуализация моделей классификации изображений и карт значимости». Препринт arXiv arXiv: 1312.6034 (2013).
  • [TCAV] Ким, Бин и др. «Tcav: Тестирование относительной важности концептов с линейными векторами активации концептов». Препринт arXiv arXiv: 1711.11279 (2017).