Правильный курс и ответственное рулевое управление

Соавторами этой статьи являются Joy Rimchala и Shir Meir Lador.

Установка правильного курса

Быстрое внедрение сложных моделей машинного обучения (ML) в последние годы поставило перед современными компаниями новую задачу: как интерпретировать, понимать и объяснять причины, лежащие в основе прогнозов этих сложных моделей. Отношение к сложным системам ОД как к надежным черным ящикам без проверки здравомыслия привело к некоторым катастрофическим результатам, о чем свидетельствуют недавние сообщения о гендерных и расовых предубеждениях в GenderShades ¹.

По мере того, как прогнозы с помощью машинного обучения более глубоко интегрируются в процесс принятия важных решений, таких как медицинские диагнозы, прогнозирование риска рецидивизма, процессы утверждения ссуд и т. Д., Знание первопричин прогнозов машинного обучения становится решающим. Если мы знаем, что определенные прогнозы модели отражают предвзятость и не согласуются с нашими лучшими знаниями и общественными ценностями (такими как политика равных возможностей или справедливость результатов), мы можем обнаружить эти нежелательные дефекты машинного обучения, предотвратить развертывание таких систем машинного обучения и исправить дефекты модели.

Наша миссия в Intuit - способствовать процветанию во всем мире. Чтобы помочь малым предприятиям и частным лицам увеличить свои шансы на успех, в последние несколько лет Intuit внедряет ИИ и машинное обучение в свою платформу и решения. Как специалисты по обработке данных в Intuit, мы обладаем уникальной привилегией и возможностями разрабатывать модели машинного обучения, которые принимают решения, влияющие на жизнь людей. Имея это право, мы также несем ответственность за то, чтобы наши модели соответствовали самым высоким стандартам и не допускали дискриминации. «Честность без компромиссов» - одна из основных ценностей Intuit. По мере роста нашей организации, основанной на искусственном интеллекте и машинном обучении, разборчивость информации о машинах стала приоритетом для продуктов Intuit на основе ИИ / машинного обучения.

В этом году Intuit провела семинар Объясняемый ИИ (XAI 2019) на KDD 2019. На этом семинаре мы почерпнули много ценных уроков, которые мы начнем использовать в наших стратегиях по продуктам и услугам.

Понимание текущего состояния интерпретируемости

Интерпретируемость - это активная область исследований, и приведенное ниже описание предназначено для предоставления общего обзора текущего состояния в данной области. Методы интерпретируемости делятся на две основные категории в зависимости от того, является ли интерпретируемая модель: (а) черным ящиком (неразборчиво) или (б) стеклянным ящиком (понятным). В следующем разделе мы объясним и сравним каждый из подходов. Мы также опишем, как мы можем использовать понятные модели, чтобы лучше понять наши данные. Затем мы рассмотрим метод обнаружения высокопроизводительных понятных моделей для любого варианта использования (кривые Расомона). Наконец, мы сравним локальные и глобальные объяснения, а также объяснения, основанные на функциях и концепциях.

Черный ящик:

Методы интерпретируемости черного ящика пытаются объяснить уже существующие модели машинного обучения без учета внутренней работы модели (то есть изученных функций принятия решений). Этот класс методов интерпретируемости не зависит от модели и может быть легко интегрирован с широким спектром моделей машинного обучения, от моделей на основе дерева решений до сложных нейронных сетей ² ³ . Применение интерпретируемости черного ящика не требует каких-либо изменений в способах создания и обучения моделей специалистами по машинному обучению. По этой причине методы интерпретируемости черного ящика получили более широкое распространение среди практиков машинного обучения. Методы интерпретируемости черного ящика также называют апостериорной интерпретируемостью, поскольку их можно использовать для исследования моделей машинного обучения после обучения и развертывания без каких-либо знаний о процедурах обучения. Примеры методов интерпретируемости черного ящика включают LIME ², Shapley, Integrated Gradients ⁷, DeepLIFT ⁸ и т. Д. Интерпретации модели Post-hoc являются прокси для объяснений. Объяснения, полученные таким образом, не обязательно должны быть удобными для человека, полезными или действенными.

Стеклянная коробка:

Подход стеклянного ящика с понятными моделями машинного обучения требует, чтобы модели были интерпретируемыми заранее (также известными как предварительные) ¹⁰. Преимущество этого подхода заключается в легкости, с которой специалисты по машинному обучению могут выявлять объяснения модели, обнаруживать данные и / или маркировать недостатки, а в некоторых случаях редактировать решения модели, если они не соответствуют ценностям практикующего специалиста или знаниям предметной области. Рич Каруана, старший главный научный сотрудник Microsoft Research и один из основных докладчиков KDD XAI 2019, продемонстрировал, как его команда построила высокоточную, понятную и редактируемую модель машинного обучения на основе обобщенных аддитивных моделей (GAM) ¹¹ и применила ее к Прогноз смертности от пневмонии ². Эта версия, также называемая GA2M (или GAM на стероидах), оптимизирована повышением градиента вместо кубических сплайнов в исходной версии и обеспечивает результаты, сопоставимые с современными моделями машинного обучения. (например, случайный лес или деревья с градиентным усилением).

Использование понятных моделей

Каруана поделился тем, как его команда использует понятные модели, чтобы лучше понимать и исправлять свои данные. Например, понятная модель усвоила правило, согласно которому пациенты с пневмонией, которые в анамнезе болели астмой, имеют более низкий риск смерти от пневмонии, чем население в целом. Это правило противоречит здравому смыслу, но отражает истинную закономерность в данных обучения: пациенты с астмой в анамнезе, у которых была пневмония, обычно поступали не только в больницу, но и непосредственно в отделение интенсивной терапии. Агрессивная помощь, оказываемая пациентам с астматической пневмонией, была настолько эффективной, что снизила их риск смерти от пневмонии по сравнению с населением в целом. Поскольку прогноз для этих пациентов лучше среднего, модели, обученные на этих данных, неправильно понимают, что астма снижает риск смертности, тогда как на самом деле астматики имеют гораздо более высокий риск (если их не лечить агрессивно).

Если более простые и понятные модели могут изучить противоречивые ассоциации - например, наличие астмы означает более низкий риск пневмонии - более сложные алгоритмы на основе нейронных сетей, вероятно, могут сделать то же самое. Даже если мы сможем удалить из данных предвзятость по поводу астмы, какие еще неверные вещи были усвоены? Это классическая проблема статистического смешения: когда переменная (в нашем случае, интенсивность лечения) связана как с зависимой, так и с независимой переменной, вызывая ложную ассоциацию. На интенсивность лечения влияет астма, что, в свою очередь, снижает риск смерти.

Это наблюдение демонстрирует важность разборчивости модели при принятии высоких решений. Модели, отражающие истинные, но ложные закономерности или идиосинкразии в данных, такие как ложная ассоциация в примере с пневмонией или социальные предубеждения, могут генерировать прогнозы, которые приводят к нежелательным последствиям, таким как плохое обращение с пациентами. Текущие модели машинного обучения обучены минимизировать ошибки прогнозирования обучающих данных, а не согласовываться с какой-либо человеческой интуицией и концепциями, поэтому нет гарантии, что модели будут соответствовать человеческим ценностям. Чаще всего модели машинного обучения, обученные на наборах данных, созданных человеком, отражают дефект или предвзятость в данных ³. Понятная модель позволяет этим дефектам обнаруживаться во время проверки модели.

В настоящее время понятна лишь небольшая часть алгоритмов, а именно модели на основе дерева решений и обобщенные аддитивные модели (GAM). Модели на основе дерева решений и GAM не используются в приложениях машинного обучения (таких как компьютерное зрение, обработка естественного языка и прогнозирование временных рядов), поскольку наилучшие возможные версии этих моделей в настоящее время не работают на самом современном уровне. уровень сложных глубоких нейросетевых моделей.

Обнаружение высокопроизводительных понятных моделей для любого варианта использования

Когда у нас есть возможность выбирать между одинаково эффективными внятными моделями и моделями черного ящика, лучше всего выбирать внятную модель ¹⁴. Как мы можем узнать, существует ли высокопроизводительная понятная модель для конкретного приложения? Синтия Рудин, профессор компьютерных наук в Университете Дьюка и научный сотрудник Института математической статистики (IMS) 2019 (также участник группы KDD XAI 2019) предложила диагностический инструмент под названием Кривая Расомона. ¹⁵, который помогает практикам ML ответить на этот вопрос.

Давайте сначала определим несколько терминов. Эффект Расёмон обозначает ситуацию, в которой существует множество различных и примерно одинаково точных описаний для объяснения явления. Термин эффект Расомон происходит от популярного японского фильма (Расомон), известного своим сюжетом, в котором задействованы различные персонажи, дающие корыстные описания одного и того же инцидента. Набор расомон, определенный в пространстве гипотез всех возможных моделей в классе модели, представляет собой подмножество моделей машинного обучения, которые по эффективности обучения близки к лучшей модели в классе. Коэффициент Расёмон - это мощность множества Расёмон, деленная на мощность всех возможных моделей (с разными уровнями точности). Таким образом, Соотношение Рашомон определяется уникально для каждой пары задача / набор данных машинного обучения. Когда отношение Расомона велико, существует несколько одинаково высокоточных моделей машинного обучения для решения этой задачи машинного обучения. Некоторые из этих высокоточных моделей в наборе Расомон могут обладать такими желательными свойствами, как разборчивость, и, возможно, стоит найти такие модели. Таким образом, коэффициент Рашомона служит индикатором простоты задачи машинного обучения.

В своем программном докладе KDD 2019 Рудин представила кривую Расомона ¹⁵ (см. Рисунок ниже), диагностическую кривую, соединяющую логарифмический коэффициент Расомона иерархии классов моделей с возрастающей сложностью в качестве функция эмпирического риска (граница частоты ошибок по классам модели).

При решении проблемы машинного обучения можно рассмотреть иерархию классов моделей, начиная от более простых до более сложных классов моделей (гипотез). Вначале классы модели остаются слишком простыми для задачи машинного обучения, а частота ошибок модели продолжает уменьшаться с увеличением сложности. Это наблюдение соответствует перемещению по горизонтальной части кривой Расомон справа налево. В этом случае объем Rashomon растет примерно с той же скоростью, что и объем всего набора всех возможных моделей (с разной точностью). В режиме, когда классы моделей машинного обучения начинают становиться слишком сложными для задач машинного обучения, частота ошибок модели остается прежней. Это соответствует пересечению вертикальной части кривой Расомон сверху вниз. В этом режиме набор всех возможных моделей перерастает набор Расёмон, и соотношение Расёмон резко падает. Поворотный момент на кривой Расомон («локоть Расомон») - это золотая середина, где встречаются более низкая сложность (более высокий логарифмический коэффициент Расомона) и более высокая точность (низкий эмпирический риск). Таким образом, среди иерархии классов моделей те, которые находятся в непосредственной близости от локтя Расомон, вероятно, будут иметь правильный уровень сложности для достижения наилучшего баланса высокой точности с желаемыми свойствами, такими как обобщаемость и интерпретируемость.

Локальное и глобальное объяснение

Методы интерпретируемости могут предоставлять два типа объяснений: локальные и глобальные ¹⁶. Локальные объяснения описывают, как модель классифицирует отдельный экземпляр данных, и отвечают на такие вопросы, как: Какие элементы данных наиболее ответственны за результат классификации? В классификации изображений это эквивалентно идентификации какой пиксель отвечает за предсказание класса изображения кошка и в какой степени. Местные объяснения имеют решающее значение для исследования решений машинного обучения по отдельным точкам данных.

С другой стороны, глобальное объяснение пытается предоставить целостное обобщение того, как модель генерирует прогнозы для всего класса объектов или наборов данных, вместо того, чтобы сосредоточиться на одном прогнозе и точке данных.

Двумя наиболее популярными методами глобального объяснения являются важность характеристик и графики частичной зависимости. Важность функции представляет собой оценку, которая показывает, насколько полезной или ценной была каждая функция при построении модели. В моделях, основанных на деревьях решений (таких как случайные леса или повышение градиента), чем больше функция используется для принятия ключевых решений в деревьях решений, тем выше ее относительная важность. Графики частичной зависимости (PDP) показывают зависимость между целевой переменной и набором целевых функций, с минимизацией значений всех других функций (дополнительные функции). Интуитивно мы можем интерпретировать частичную зависимость как ожидаемую целевую реакцию как функцию целевых характеристик. График частичной зависимости помогает нам понять, как значение конкретной функции влияет на прогнозы, что может быть полезно для отладки модели и данных, как показано на ².

Объяснение, основанное на характеристиках и основанное на концепциях

Ранние методы интерпретируемости полагались на использование входных функций для построения объяснения. Этот подход известен как объяснение, основанное на функциях. Основная трудность с объяснениями, основанными на функциях, заключается в том, что большинство моделей машинного обучения оперируют функциями, такими как значения пикселей, которые не соответствуют высокоуровневым концепциям, которые люди могут легко понять. В своем выступлении на KDD XAI 2019 старший научный сотрудник Google Brain Бин Ким указала, что функциональные объяснения применимы к современным сложным моделям черного ящика (таким как InceptionV3 или GoogleLeNet). ) могут давать бессмысленные объяснения » «¹⁸. Что еще более важно, функциональные объяснения проблем машинного обучения, в которых входные функции имеют высокую размерность, не обязательно приводят к понятным для человека объяснениям.

Объясняемость на основе концепций создает объяснение, основанное на концепциях, определенных человеком, а не на представлении входных данных на основе функций и состояний внутренней модели (активации). Для этого входная функция, внутреннее состояние модели и концепция, определенная человеком, представлены в двух векторных пространствах: (Em) и (Eh) соответственно. Функциональное сопоставление между этими двумя векторными пространствами, если оно существует, обеспечивает способ извлечения определенных человеком концепций из входных функций и внутренних состояний модели машинного обучения.

В своем выступлении Ким представила тестирование с вектором активации концептов (TCAV), процедуру количественного перевода между определяемым человеком концептуальным пространством (Eh) и внутренним состоянием модели (Em) ¹⁹. TCAV требует двух основных ингредиентов: (1) входные данные, содержащие концепцию, и отрицательные выборки (случайные входные данные), и (2) предварительно обученные модели машинного обучения, на которых тестируются концепции. Чтобы проверить, насколько хорошо обученная модель ML отражает конкретную концепцию, содержащие концепцию и случайные входные данные выводятся на подкомпоненты (слои) обученной модели ML. Затем линейный классификатор, такой как машина опорных векторов, обучается различать активацию сети из-за содержащих концепцию и случайных входов. Результатом этого обучения являются векторы активации концепций (CAV). Как только CAV определены, производная по направлению вероятности класса вдоль CAV может быть вычислена для каждого экземпляра, принадлежащего классу. Наконец, важность концепции для класса вычисляется как доля экземпляров в классе, которые положительно активируются концепцией, содержащей входные данные, по сравнению со случайными входными данными. Такой подход позволяет людям задаться вопросом, усваивает ли модель конкретную выразимую концепцию и насколько хорошо.

Например, человек может спросить, насколько хорошо модель компьютерного зрения «X» учится ассоциировать понятие «белый халат» или «стетоскоп» на изображениях врача с помощью TCAV. Для этого люди-тестировщики могут сначала собрать коллекцию изображений, содержащих белые халаты и случайные изображения, затем применить предварительно обученный «X» к этой коллекции изображений, чтобы получить прогнозы, и вычислить оценки TCAV для концепции «белого халата». Эта оценка TCAV количественно определяет, насколько важным было понятие «белый халат» для предсказания класса «врач» в задаче классификации изображений. TCAV - это подход, основанный на примерах, поэтому он по-прежнему требует тщательного выбора экземпляров концептуальных данных в качестве входных. TCAV также полагается на людей, которые генерируют концепции для тестирования, и на то, что концепция может быть выражена во входных данных концепции.

Методы интерпретируемости, основанные на концепциях, такие как TCAV, являются шагом к извлечению «удобных для человека» объяснений машинного обучения. Сегодняшние специалисты по машинному обучению должны делать ответственные и правильные суждения о том, разумны ли предсказания модели и соответствуют ли они нашим положительным ценностям. Мы должны исправить дефекты в обученных моделях машинного обучения черного ящика, и TCAV может помочь выявить недостатки.

Что мы можем сделать лучше?

Как сообщество практиков машинного обучения, мы обязаны четко определить, чем мы хотим, чтобы Объясняемый ИИ стал, и установить руководящие принципы для генерации объяснений, которые принимают во внимание какую часть информации использовать, как (каким образом), чтобы построить объяснимую возможность, которая будет полезной (не вредной или оскорбительной), и когда (в какой ситуации / контексте и кому) ее передать. Сегодняшние методы объяснимого ИИ помогают выявлять дефекты в системах машинного обучения, но впереди еще много работы.

А пока вот несколько советов, как сделать объяснимость первоочередной задачей сегодняшней практики:

  • По возможности выбирайте внятную модель.
  • Убедитесь, что модель и данные соответствуют вашим знаниям в предметной области и общественным ценностям, используя понятные модели и местные объяснения.
  • Измеряйте производительность модели машинного обучения, чтобы убедиться, что решения согласованы с общественными ценностями (например, при моделировании данных, включающих защищенные группы, оптимизируйте согласованность и равные возможности, а также точность) ²⁰.
  • Встраивайте причинно-следственную связь в пояснения модели ²¹.
  • Измерьте полезность и действенность объяснения ²².

Заключительные мысли

За несколько коротких лет область объяснимого ИИ прошла очень долгий путь. Как соорганизаторы этого семинара, нам посчастливилось стать свидетелями огромного энтузиазма по поводу объяснимости в ML. Для всех нас объяснимость может быть нашим «истинным Севером». Как мы можем использовать машинное обучение ответственно, гарантируя, что «наши ценности совпадают и наши знания отражаются» на благо человечества. Это выходит за рамки достижения доверия конечного пользователя или достижения справедливости в узком смысле. Мы хотим использовать объяснимость в сочетании с общественными ценностями на благо всех, чья жизнь и средства к существованию соприкасаются с ОД или затрагиваются им.

Подтверждение

Мы хотели бы поблагодарить сообщество волонтеров, которые помогли своевременно просмотреть документы семинара XAI KDD. Мы также благодарны спикерам нашего семинара и участникам дискуссии за то, что они поделились своими знаниями, мудростью и превосходным содержанием.

Использованная литература:

[1] Джой Буоламвини, Тимнит Гебру. Гендерные оттенки: межсекторные различия в точности в коммерческой гендерной классификации. В материалах 1-й конференции по справедливости, подотчетности и прозрачности 2018 PMLR 81: 77–91.

[2] Марко Тулио Рибейро, Самир Сингх и Карлос Гестрин. Модельно-независимая интерпретируемость машинного обучения. Препринт arXiv arXiv: 1606.05386, 2016.

[3] Рут С. Фонг и Андреа Ведальди. Интерпретируемые объяснения черных ящиков осмысленным возмущением. В материалах Международной конференции IEEE по компьютерному зрению (ICCV) 2017, страницы 3429–3437.

[4] Петр Дабковский и Ярин Гал. Важность изображения в реальном времени для классификаторов черного ящика. In Advances in Neural Information Processing Systems (NIPS) 2017, страницы 6967–6976.

[5] Чун-Хао Чанг, Эллиот Крегер, Анна Гольденберг и Давид Дювено. Объяснение классификаторов изображений путем создания контрфактов. В Труды 3-й Международной конференции по обучающим представительствам (ICLR), 2019.

[6] Скут Лундберг и Су-Ин Ли. Единый подход к интерпретации прогнозов модели. В Достижения в системах обработки нейронной информации, 2017.

[7] Мукунд Сундарараджан, Анкур Тали, Цици Ян. Аксиоматическая атрибуция для глубоких сетей. В материалах 34-й Международной конференции по машинному обучению (ICML) 2017 Vol. 70, Страницы 3319–3328.

[8] Аванти Шрикумар, Пейтон Гринсайд, Аншул Кундаже. Изучение важных функций путем распространения различий в активации. В ICML 2017 и PMLR Vol 70, страницы 3145–3153.

[9] Бин Ким, Синтия Рудин и Джули А. Шах. Байесовская модель случая: генеративный подход к рассуждению на основе случая и классификации прототипов. В НИПС 2014, страницы 1952–1960.

[10] Б. Устун, Ч. Рудин. Методы и модели интерпретируемой линейной классификации. arXiv: 1405.4047 2014 .

[11] Тревор Хасти Роберт Тибширани. Обобщенные аддитивные модели: некоторые приложения. В журнале Американской статистической ассоциации, 1987 г., 82: 398, 371–386.

[12] Рич Каруана, Пол Кох, Инь Лу, Марк Штурм, Йоханнес Герке, Ноэми Эльхадад. Разумные модели для здравоохранения: прогнозирование риска пневмонии и 30-дневная реадмиссия в больницу. В материалах 21-й Международной конференции ACM SIGKDD по открытию знаний и интеллектуальному анализу данных Страницы 1721–1730.

[13] Яир Хореш, Ноа Хаас, Эльханан Мишраки, Йехезкель С. Решефф, Шир Меир Ладор Парная согласованность: модельно-независимый подход к регуляризации справедливости в машинном обучении. В arXiv: 1908.02641, 2019.

[14] Синтия Рудин. Прекратите объяснять модели машинного обучения черного ящика для принятия серьезных решений и используйте вместо них интерпретируемые модели. В Nature Machine Intelligence (2019) Том 1, страницы 206–215.

[15] Семенова, Леся и Синтия Рудин. Исследование кривых и объемов Расомона: новый взгляд на обобщение и простоту моделей в машинном обучении. В препринте arXiv arXiv: 1908.01755, 2019.

[16] Ким, Бин и Доши-Велез, Финал. На пути к строгой науке интерпретируемого машинного обучения. В arXiv: 1702.08608, 2017.

[17] Джулиус Адебайо, Джастин Гилмер, Майкл Муэлли, Ян Гудфеллоу, Мориц Хардт, Бин Ким. Проверка здравомыслия для карт значимости. В NeurIPS 2018.

[18] Мэнцзяо Ян и Бин Ким BIM: К количественной оценке методов интерпретации с достоверностью. В arXiv: 1907.09701, 2019.

[19] Бин Ким, Мартин Ваттенберг, Джастин Гилмер, Кэрри Кай, Джеймс Векслер, Фернанда Виегас и Рори Сейрес. Интерпретируемость за пределами атрибуции признаков: количественное тестирование с векторами активации концептов (TCAV). В ICML 2018 страницы 2673–2682.

[20] Дэвид Альварес-Мелис, Томми С. Яаккола. На пути к надежной интерпретируемости с помощью самообъясняющих нейронных сетей. В arXiv: 1806.07538, 2018.

[21] Яш Гоял, Ури Шалит, Бин Ким. Объяснение классификаторов с помощью причинно-следственной концепции (CaCE). В arXiv: 1907.07165, 2019.

[22] Берк Устун, Александр Спангер, Ян Лю. Действие в линейной классификации. В материалах конференции по справедливости, подотчетности и прозрачности (FAT *) 2019, Страницы 10–19 .