Предвзятый ИИ, взгляд под капот

Что именно происходит в системах ИИ, страдающих от предубеждений?

Проблема предвзятости в области искусственного интеллекта (ИИ) в последнее время вызвала много негативных заголовков. Отчеты показали, что системы ИИ могут непреднамеренно дискриминировать чувствительные подгруппы. Например, было обнаружено, что система набора персонала на базе искусственного интеллекта международной технологической компании систематически отдает предпочтение кандидатам-мужчинам, а не женщинам. В этой статье я пролью свет на внутренние процессы, происходящие, когда ИИ выходит из-под контроля. На его создание меня вдохновила опубликованная мной исследовательская работа по этой теме.[1]

Чтобы лучше понять предысторию этой проблемы, давайте сначала представим некоторые фундаментальные знания о машинном обучении. По сравнению с традиционным программированием, одно существенное отличие заключается в том, что обоснование принятия решений алгоритмом не определяется жестко запрограммированными правилами, которые были явно запрограммированы человеком, а скорее изучается на примерах данных: получаются тысячи, а иногда и миллионы параметров. оптимизированы без вмешательства человека, чтобы окончательно зафиксировать обобщенную структуру данных. Полученная модель позволяет делать прогнозы на основе новых, ранее невиданных данных с высокой точностью.

Пример, пожалуйста

Чтобы проиллюстрировать концепцию, давайте рассмотрим примерный сценарий обнаружения мошенничества в страховых претензиях. Проверка законности страхового требования имеет важное значение для предотвращения злоупотреблений. Однако расследование мошенничества является трудоемким для страховой компании. Кроме того, по некоторым видам страхования одновременно может возникнуть множество убытков — например, из-за стихийных бедствий, затрагивающих целые регионы. С другой стороны, для страхователей дополнительные проверки могут раздражать, например, когда их просят ответить на дополнительные вопросы или предоставить дополнительные документы. Обе стороны заинтересованы в быстром решении: клиенты ожидают своевременного решения проблемы, а компания старается минимизировать усилия. Поэтому система ИИ, ускоряющая такую задачу, может оказаться очень полезной. В частности, он должен быть в состоянии надежно идентифицировать законные страховые претензии, чтобы сделать возможной быструю выплату. Случаи потенциального мошенничества также должны надежно выявляться и помечаться для дальнейшего расследования.

Как работает ваш ИИ?

Теперь давайте углубимся в технические детали. Чтобы оценить производительность такого классификатора, мы обычно сравниваем прогнозируемый результат Ŷ с истинным значением вывода Y. В данных претензий выходное значение 1 соответствует мошеннической претензии, а 0 — законной претензии. В следующей таблице приведены примерные прогнозы для нашего работающего примера.

Для лучшей иллюстрации найдите те же результаты, графически представленные на анимации ниже. Черные точки соответствуют отрицательным образцам (Y=0), здесь фактические законные претензии. Белые точки обозначают положительные образцы (Y=1), фактические мошеннические претензии в данном сценарии. Большой красный круг представляет собой границу классификатора: точки за пределами круга были предсказаны как отрицательные/законные (Ŷ=0), точки внутри круга — как положительные/мошеннические (Ŷ=1). Различные цвета фона также показывают, где классификатор был прав (светло-зеленый и темно-зеленый), а где нет (светло-серый и темно-серый).

Стоит отметить, что в этом упрощенном двумерном примере было бы очевидно провести идеальную границу, которая разделяет черные и белые точки и, таким образом, определить идеальный классификатор. Однако в многомерных случаях использования в реальном мире вряд ли возможно получить идеальный классификатор с нулевой частотой ошибок; оптимизация всегда остается вопросом компромиссов.

Покончить с путаницей

Так называемая «матрица путаницы» помогает визуализировать и вычислять статистические показатели, обычно используемые для проверки производительности модели машинного обучения. Строки матрицы представляют собой фактические выходные классы, в нашем случае 0 или 1. Столбцы представляют прогнозируемые выходные классы по данному классификатору. Ячейки, в которых прогнозируемый класс соответствует фактическому классу, содержат количество правильно классифицированных экземпляров. Везде, где классы различаются, классификатор ошибся, и числа представляют собой неправильно классифицированные образцы.

На абстрактном уровне цифры в ячейках обычно обозначаются терминами, представленными в таблице ниже.

Взяв за основу данные из нашего работающего примера, соответствующая матрица путаницы выглядит следующим образом. Как вы заметили, данный классификатор правильно предсказал 9 претензий мошенническими и 30 претензий законными. Однако он также ошибочно предсказал, что 12 утверждений являются законными, которые на самом деле были мошенническими, и 12 утверждений были признаны мошенническими, которые на самом деле таковыми не были.

Возвращаясь к анимированной иллюстрации выше, мы также понимаем, что цветные сегменты на схеме соответствуют различным ячейкам в матрице путаницы: истинно положительные (светло-зеленые), ложноположительные (светло-серые), истинно отрицательные (темно-зеленые) и ложноотрицательные. (темно-серый).

Давай формулы!

Из матрицы путаницы мы можем извлечь множество интересных статистических показателей. Сначала мы подсчитываем фактические положительные результаты в наборе данных. Это число представляет собой сумму истинно положительных и ложноотрицательных результатов, которые можно рассматривать как пропущенные истинные положительные результаты. Точно так же количество фактических отрицательных результатов представляет собой сумму истинно отрицательных и ложноположительных результатов, которые снова можно рассматривать как пропущенные истинно отрицательные результаты. В нашем примере эти цифры представляют собой количество фактических мошеннических требований и фактических законных требований.

(Положительный) базовый показатель, иногда также называемый коэффициентом распространенности, представляет собой долю фактических положительных результатов по отношению ко всему набору данных. В нашем примере этот показатель описывает долю фактических мошеннических требований в наборе данных.

Показатель истинно положительных результатов и Показатель истинно отрицательных результатов описывают соотношение правильно классифицированных положительных и отрицательных случаев соответственно к их фактическим встречаемости. В этом примере истинно положительный показатель описывает долю всех фактических мошеннических требований, которые были обнаружены как таковые. Истинный отрицательный показатель представляет собой долю фактических законных требований, которые были успешно обнаружены.

Коэффициент ложных открытий описывает долю ошибочно классифицированных положительных классификаций среди всех положительных прогнозов. Таким образом, речь идет о доле положительно классифицированных случаев, которые были ложно идентифицированы или обнаружены как таковые. Напротив, коэффициент ложных пропусков описывает долю ложноотрицательных прогнозов среди всех негативных прогнозов. Эти случаи, которые на самом деле являются положительными, были пропущены — они были ошибочно пропущены или опущены. В нашем примере частота ложных обнаружений — это частота ошибок среди всех заявлений, которые были классифицированы как мошеннические. Коэффициент ложного пропуска описывает долю фактически мошеннических требований от всех требований, которые были классифицированы как законные.

Существует множество других статистических показателей для оценки эффективности модели машинного обучения. Однако для демонстрации предвзятости ИИ введенных выше метрик достаточно.

Вы что-то упустили из виду

До сих пор мы анализировали данные как одну совокупность и не учитывали возможное существование чувствительных подгрупп в данных. Однако, поскольку решения алгоритмов машинного обучения часто влияют на людей, многие наборы данных содержат конфиденциальные подгруппы по характеру данных. Такие подгруппы могут, например, определяться по признаку пола, расы или религии. Чтобы проанализировать, является ли классификатор потенциально предвзятым, мы добавляем это дополнительное измерение и разделяем результаты по этому чувствительному атрибуту на подгруппы. Это позволяет исследовать возможные расхождения между ними. Любое такое отклонение может быть признаком дискриминации одной чувствительной группы.

Теперь мы исследуем наш работающий пример обнаружения страхового мошенничества на предмет нежелательной предвзятости. Выходные данные обученной модели остаются неизменными, но на этот раз мы предполагаем две чувствительные подгруппы в данных, например, мы разделяем данные на мужчин и женщин.

Мы замечаем, что базовые ставки (BR) идентичны в обеих подгруппах, что означает в этом примере, что мужчины и женщины с одинаковой вероятностью могут подать мошенническое (или законное) требование. Однако истинный отрицательный показатель (TNR) для мужчин составляет 0,79, а для женщин — 0,57. Это означает, что 79 % действительных требований, поданных мужчинами, правильно классифицируются как законные, в то время как для женщин это относится только к 57 % заявлений того же типа. С другой стороны, частота ложных пропусков у мужчин составляет 24%, а у женщин — 38%. Таким образом, у мошеннических исков, поданных женщинами, больше шансов остаться незамеченными, чем у мошеннических исков, поданных мужчинами в нашем вымышленном сценарии.

Ну и что

Считается, что смещение ИИ возникает, когда статистические показатели, такие как описанные выше, значительно отличаются от одной чувствительной подгруппы к другой. Другими словами, система предвзята, если она работает по-разному для разных групп. Из-за «черного ящика» большинства алгоритмов машинного обучения и, в частности, в тех областях применения, где результаты не могут быть непосредственно оценены человеческим глазом (например, баллы), эта проблема может оставаться незамеченной в течение длительного времени. Однако, поскольку ИИ оказывает все большее влияние на жизнь людей, необходимо выявлять и смягчать предвзятость ИИ, чтобы предотвратить систематическое неравное обращение с лицами из уязвимых подгрупп и вместо этого обеспечить ответственное использование ИИ.

Теперь, когда у нас есть более четкое представление о том, что именно не так в предвзятом ИИ, мы можем обратить внимание на источник проблемы. В моей следующей статье я углубляю вопрос, откуда на самом деле берутся эти предубеждения.

Большое спасибо Антуану Пьетри за ценную поддержку при написании этого поста. Все изображения, если не указано иное, принадлежат автору.