Определение интерпретируемых функций

Краткое изложение результатов и разработанной таксономии, разработанной исследователями Массачусетского технологического института.

В феврале 2022 года исследователи из группы Data to AI (DAI) Массачусетского технологического института опубликовали статью под названием Необходимость интерпретируемых признаков: мотивация и таксономия [1]. В этом посте я стремлюсь обобщить некоторые из основных моментов и вклада этих авторов, а также обсудить некоторые потенциальные последствия и критику их работы. Я настоятельно рекомендую прочитать оригинальную статью, если вы найдете что-то из этого интригующим. Кроме того, если вы новичок в интерпретируемом машинном обучении, я настоятельно рекомендую бесплатную книгу Кристофера Молнара [2]. Хотя определение интерпретируемости/объяснимости часто меняется в разных публикациях [1], эта книга обеспечивает прочную основу для понимания области.

Основной вывод статьи заключается в том, что даже в моделях с высокой степенью интерпретируемости, таких как линейная регрессия, неинтерпретируемые функции могут привести к непонятным объяснениям (например, вес 4 для функции x12 ничего не значит для большинства людей). Имея это в виду, в документе представлена ​​категоризация заинтересованных сторон, реальные варианты использования интерпретируемых функций, классификация различных качеств функций и возможные преобразования интерпретируемых функций, которые помогают специалистам по данным разрабатывать понятные функции.

Определение заинтересованных сторон

Первым вкладом в эту статью является расширение основных типов пользователей, которым могут быть полезны объяснения ML, предложенные Preece et al. [3], а также определение некоторых их интересов. Хотя Прис и соавт. предложили 4 основных типа заинтересованных сторон, авторы этой статьи расширяют этот список до 5:

  • Разработчики: те, кто обучает, тестирует и развертывает модели машинного обучения и заинтересован в функциях для повышения производительности модели.
  • Теоретики: Те, кто заинтересован в продвижении теории машинного обучения и заинтересован в функциях, чтобы понять их влияние на внутреннюю работу моделей.
  • Специалисты по этике: те, кто заинтересован в справедливости моделей и заинтересован в функциях, обеспечивающих этичное использование моделей.
  • Лица, принимающие решения: те, кто использует результаты моделей для выполнения задач и принятия решений. Их явно не интересуют функции, но им нужны объяснения, чтобы их решения принимались на основе достоверной информации.
  • Затронутые пользователи: это люди, на которых влияют модели и их использование, но которые не взаимодействуют с моделями напрямую, если только это не нужно для того, чтобы понять влияние на себя.

Каждый из различных пользователей имеет разные потребности, когда дело доходит до разработки функций, и эти потребности часто противоречат друг другу. В то время как лицу, принимающему решение, могут потребоваться самые простые функции в модели для лучшей интерпретируемости, разработчик может выбрать сложные преобразования, которые сделают функцию сверхпрогностической.

Реальные варианты использования

Наряду с представлением заинтересованных сторон авторы представляют 5 областей реального мира, в которых они столкнулись с препятствиями при попытке объяснить разработанные ими модели.

Тематические исследования

Благополучие детей

В этом тематическом исследовании команда DAI сотрудничала с социальными работниками и учеными (выступающими в роли лиц, принимающих решения, и специалистов по этике), чтобы разработать объяснимую модель LASSO с более чем 400 функциями, которая выводит оценку риска для потенциальных случаев жестокого обращения с детьми. В ходе этого процесса команда DAI обнаружила, что большая часть недоверия к модели связана с функциями, а не с алгоритмом машинного обучения. Одна заметная путаница была связана с формулировкой, окружающей категориальные функции с горячим кодированием (например, role of child is sibling == False). Кроме того, многие социальные работники и ученые были обеспокоены особенностями, которые они считали не связанными с поставленной задачей прогнозирования, исходя из своего опыта в предметной области.

Образование

В области онлайн-образования авторы работали над добавлением интерпретируемости к различным задачам принятия решений, связанным с массово открытыми онлайн-курсами (например, бесплатные курсы на Coursera, edX и т. д.). Работая с различными разработчиками курсов и преподавателями, авторы обнаружили, что наиболее полезными функциями были те, которые объединяли данные в абстрактные концепции, имеющие значение для пользователя (например, объединение завершения работы и взаимодействия в функцию participation). Наряду с этим исследователи обнаружили, что заинтересованные стороны реагировали лучше, когда источники данных этих абстрактных понятий можно было легко отследить.

Кибербезопасность

В третьей области исследователи разработали модели для обнаружения алгоритмов генерации доменов, чтобы помочь аналитикам безопасности реагировать на потенциальные атаки. Хотя многие функции были разработаны для выявления этих атак, необработанные журналы DNS, из которых были созданы эти функции, были гораздо более полезными для пользователей, и проблема, с которой столкнулись авторы, заключалась в том, как отследить значения функций до соответствующих журналов.

Медицинские записи

В области здравоохранения исследователи работали с шестью клиницистами, чтобы разработать модель для прогнозирования осложнений после операции. В этом тематическом исследовании авторы использовали значения SHAP для объяснения вклада функций, но быстро обнаружили, что одних только объяснений SHAP недостаточно. Продолжая тенденцию из области кибербезопасности, авторы обнаружили, что функции, основанные на функциях агрегации, не так интерпретируемы, как исходные данные сигнала.

Спутниковый мониторинг

В этом тематическом исследовании авторы стремились визуализировать результаты решений по обнаружению аномалий временных рядов и разработали инструмент вместе с шестью экспертами в предметной области. Затем авторы провели два исследования пользователей, чтобы оценить инструмент как с экспертами в предметной области, так и с обычными конечными пользователями, используя данные о ценах на акции. В этом упражнении авторы обнаружили, что требуется больше прозрачности в отношении процесса вменения, и большинство вопросов касалось того, какие значения были импутированы, а какие – реальными.

Уроки выучены

Из всех дел было извлечено три ключевых урока:

  1. Наибольшее внимание в литературе уделяется выбору и разработке функций для максимизации производительности модели, но модели, которые взаимодействуют с пользователями-людьми и лицами, принимающими решения, нуждаются в интерпретируемом пространстве функций, чтобы быть полезными.
  2. Чтобы быть интерпретируемой, функция должна иметь различные свойства (обсуждаемые далее в таксономии).
  3. Хотя преобразования, приводящие функции в состояние готовности к модели, важны, также должен быть способ отменить эти преобразования для обеспечения интерпретируемости.

Таксономия функций

Авторы использовали домены, в которых они работали, а также большой поиск литературы, чтобы затем разработать таксономию качеств функций, которые идентифицировали пользователи. Авторы распределяют эти качества по двум основным качествам — готовности к моделированию и интерпретируемости — с некоторыми функциями, обладающими обоими качествами.

Готовые к модели свойства позволяют функции хорошо работать в модели, и это то, на чем сосредоточены разработчики, теоретики и специалисты по этике.

Интерпретируемые свойства — это те, которые делают функцию более понятной для пользователей. Эти свойства в первую очередь приносят пользу лицам, принимающим решения, пользователям и специалистам по этике.

Свойства элементов, готовых к модели

  1. Прогноз: Функция коррелирует с целью прогнозирования. Однако это не подразумевает прямой причинно-следственной связи, поскольку признак может быть смешанной переменной или ложной корреляцией.
  2. Совместимость с моделью. Эта функция поддерживается архитектурой модели, но может быть бесполезной.
  3. Готов к модели: эта функция совместима с моделью и может помочь создать точный прогноз. Готовые к модели функции также включают в себя те, которые были преобразованы с помощью таких методов, как нормализация и стандартизация.

Интерпретируемые свойства объектов

  1. Читаемый: функция написана простым текстом, и пользователи могут понять, о чем идет речь, не глядя на какой-либо код.
  2. Написано человеческим языком: функция удобочитаема и описана в естественной, удобной для человека форме. Авторы обнаружили, что заинтересованные стороны в сфере защиты детей особенно выиграли от этого свойства.
  3. Понятный: эта функция относится к реальным показателям, понятным пользователям. Это свойство сильно зависит от опыта пользователей, но обычно это функции, которые не подвергались сложным математическим операциям (например, возраст можно понять, но log(humidity) может и не быть).

Как готовые к моделированию, так и интерпретируемые свойства

  1. Значимый: особенность, которая, по мнению экспертов в данной области, связана с целевой переменной. Некоторые функции могут быть прогнозируемыми, но не значимыми из-за ложных корреляций. Точно так же некоторые функции могут быть значимыми, но не очень предсказуемыми. Тем не менее, рекомендуется стараться использовать в основном значимые функции.
  2. Абстрактные концепции. Функция рассчитывается на основе некоторой комбинации исходных функций, определенной экспертом в предметной области, и часто представляет собой общие концепции (например, участие и достижения).
  3. Отслеживаемый: функцию можно точно связать с необработанными данными, на основе которых она была рассчитана.
  4. Смоделируемый: при необходимости функцию можно точно пересчитать из необработанных данных. Все моделируемые функции отслеживаются, но не все отслеживаемые функции можно моделировать. Например, test grade over time` может быть отслеживаемым (оно получено из необработанных тестовых оценок), но не имитируемым, поскольку это может относиться к средним оценкам за месяц или год или к изменению оценок.

Интерпретируемые преобразования

Наряду с различными свойствами интерпретируемых функций авторы также представили несколько методов разработки функций и то, как они потенциально могут способствовать интерпретируемости функций. Хотя некоторые преобразования данных для подготовки объектов к модели также могут помочь с интерпретируемостью, это не всегда так. Преобразования интерпретируемости призваны помочь преодолеть этот разрыв, но часто могут отменить готовые к модели преобразования. Это может снизить прогностическую способность модели, но введет интерпретируемые свойства признаков, что сделает ее более надежной для лиц, принимающих решения, пользователей и специалистов по этике.

  • Преобразование в категориальное. Если вы хотите объяснить функции, преобразуйте быстро закодированные переменные обратно в их категориальную форму.
  • Семантическое бинирование. При группировании числовых данных старайтесь группировать на основе реальных различий, а не статистических различий. Например, более удобно интерпретировать бинирование age по child, young-adult, adult и senior категориям вместо бинирования по квартилям.
  • Помеченная импутация. Если используется импутация данных, дополнительная функция, идентифицирующая точки, содержащие импутированные данные, может значительно повысить доверие к вашим моделям.
  • Агрегировать числовые характеристики. Когда в данных присутствует много тесно связанных показателей, может быть полезно объединить их в одну характеристику, чтобы предотвратить перегрузку данных. Например, авторы обнаружили, что суммирование различных обращений о физическом и эмоциональном насилии в единую метрику подсчета обращений помогло лицам, принимающим решения.
  • Изменить категориальную гранулярность. Когда многие категории связаны друг с другом, интерпретируемость и производительность можно улучшить, выбрав подходящее обобщение переменной (например, суммирование почвенных зон в наборе данных тип лесного покрова с основные 8 геологических почвенных зон)
  • Преобразование в абстрактные концепции. Применяйте преобразование числовой агрегации и категориальной детализации для разработки формулы, созданной вручную, для создания абстрактной концепции, понятной экспертам в предметной области.
  • Обратное масштабирование и проектирование признаков. Если применяются стандартизация, нормализация или математические преобразования, интерпретируемость может быть повышена, если эти преобразования обратить вспять перед анализом признаков. Например, отчет о весе элемента age более полезен, чем отчет о весе sqrt(age).
  • Ссылка на необработанные данные. Это преобразование расширяет возможности обратного масштабирования и разработки функций. Если возможно, явно покажите, как инженерная функция рассчитывается на основе необработанных данных.

Хотя это не исчерпывающий список всех возможных преобразований, он дает отличную отправную точку для специалистов по обработке и анализу данных для некоторых простых шагов, которые они могут предпринять, чтобы убедиться, что у них есть интерпретируемое пространство признаков.

Обсуждение и вывод

Читая эту статью, у меня были критические замечания. Во-первых, хотя авторы разработали различные заинтересованные стороны, они никогда не приводили примеров, когда затронутые пользователи отличались бы от лиц, принимающих решения. Хотя мы можем сделать некоторые обоснованные предположения (например, учащиеся могут быть затронутыми пользователями в случае образования, а пациенты могут быть затронутыми пользователями в случае здравоохранения), нет представленной причины того, как интерпретируемые функции помогают этой группе.

Сами авторы также представили некоторые риски интерпретируемых признаков. В их примере разработчик мог злонамеренно включить признак расы в абстрактную концепцию социально-экономических факторов, эффективно скрывая, что раса использовалась в качестве предиктора в их модели. Кроме того, авторы признают, что многие из предложенных преобразований интерпретируемости могут снизить производительность модели. Некоторые интерпретируемые свойства функций (например, удобочитаемость) также не подходят, когда важна конфиденциальность данных.

Несмотря на эту критику, нельзя отрицать, что Zytek et al. [1] предоставил много информации о том, что делает функции интерпретируемыми, как добиться интерпретируемости и почему это важно в первую очередь. Кроме того, предлагаемые преобразования относительно просты в реализации, что делает их гораздо более удобными для начинающих специалистов по данным. Их таксономия представлена ​​на Рисунке 1 выше и, вероятно, представляет собой изображение, которое большинству специалистов по данным необходимо держать под рукой на своих рабочих столах.

Ресурсы и ссылки

[1] А. Зитек, И. Арнальдо, Д. Лю, Л. Берти-Экиль, К. Верамачанени. Потребность в интерпретируемых функциях: мотивация и таксономия (2022). Исследования SIGKDD.

[2] К. Молнар. Интерпретируемое машинное обучение (2020). LeanPub

[3] А. Прис, Д. Харборн, Д. Брейнс, Р. Томсетт, С. Чакраборти. Заинтересованные стороны в объяснимом ИИ (2018). Искусственный интеллект в правительстве и государственном секторе стр. 6.

[3] С. Лундберг, С.И. Ли. Единый подход к интерпретации модельных прогнозов (2017). Достижения в области обработки нейронной информации, том 31, стр. 10.