Йован Хул, инженер-программист Eightfold.ai

В рамках нашей серии сообщений в блоге Ответственная практика в области ИИ мы хотели бы подробно остановиться на следующих аспектах для части II:

Правильное управление

В последние годы как работодатели, так и регулирующие органы все больше осознают этические последствия использования инструментов на основе ИИ в связи с решениями о трудоустройстве.

Ключевым аспектом снижения этих рисков является надежная и прозрачная методология измерения предвзятости ИИ в процессах отбора. В Eightfold мы ищем решение, которое эффективно устраняет разрыв между моделями оценки, существующими сегодня, и десятилетиями исследований в области трудового права и анализа неблагоприятного воздействия. Среды оценки моделей сосредоточены на способности модели машинного обучения понимать и обобщать закономерности в наборе данных. В контексте алгоритмической справедливости эти фреймворки помогают ответить на вопрос:

"Зависит ли эффективность модели, используемой инструментом подбора персонала, от членства в подгруппе?"

Однако в тех случаях, когда исходные данные необъективны, даже модель, одинаково хорошо работающая в подгруппах, может привести к неравным результатам. С этой целью анализ неблагоприятного воздействия широко охватывает анализ различий в результатах занятости. В результате анализ неблагоприятного воздействия помогает ответить на вопрос:

«Приводит ли использование рассматриваемого инструмента найма к разным результатам в разных подгруппах?»

И рамки оценки модели, и анализ неблагоприятного воздействия обеспечивают уникальное понимание алгоритмической справедливости и являются частью измерения Eightfold анализа предвзятости применительно к реальным данным.

Анализ неблагоприятного воздействия

Фон

Существующие методологии анализа неблагоприятного воздействия исторически использовались для оценки и анализа неблагоприятного воздействия человеческих решений. Учитывая масштаб данных, с которыми работает ИИ, некоторые предположения, лежащие в основе этих методологий, не обязательно применимы, вызывая неконгруэнтное поведение. Однако мы можем черпать из них вдохновение для разработки тестов, применимых к разным масштабам данных.

Ключевым компонентом анализа неблагоприятного воздействия является изучение различий в частоте отбора среди подгрупп. Он предназначен для оценки различий в процессах отбора. Даже беспристрастные процессы отбора при оценке конечной выборки могут привести к различиям в коэффициентах отбора из-за ошибки выборки. Проверка значимости — это процесс, с помощью которого различия в коэффициентах отбора, которые потенциально указывают на дискриминацию, отделяются от тех, которые возникают просто случайно.

При проверке статистической значимости нулевая гипотеза об общей совокупности проверяется на выборке совокупности. В контексте анализа неблагоприятного воздействия нулевая гипотеза состоит в том, что между двумя подгруппами нет существенной разницы в показателях отбора. В соответствии с набором допущений тест статистической значимости проверяет нулевую гипотезу по сравнению с данными о потоках соискателей, определяя вероятность наблюдения коэффициентов отбора, наблюдаемых в выборке, когда нулевая гипотеза верна. Когда эта вероятность ниже определенного порога, различия в скорости отбора считаются статистически значимыми. Когда эта вероятность превышает пороговое значение, различия в показателях отбора недостаточно значительны, чтобы отклонить нулевую гипотезу. Поскольку незначительные различия также могут быть результатом недостаточности данных из-за небольшого размера выборки, отказ отклонить нулевую гипотезу не обязательно означает беспристрастный процесс отбора.

Тесты статистической значимости имеют свои ограничения. Коэффициенты ошибок типа I и типа II выражают вероятность того, что тест приведет к ложноположительному и ложноотрицательному результату соответственно. Статистическая мощность является дополнением к частоте ошибок типа II и обозначает вероятность того, что тест правильно отклонит нулевую гипотезу при наличии существенной разницы. В идеальном мире частота ошибок как I, так и II типа была бы низкой, однако уменьшение количества ошибок одного типа часто приводит к увеличению количества ошибок другого. При разработке среды тестирования мы ищем баланс между ними.

Кроме того, когда для проверки статистической значимости используются большие размеры выборки, даже небольшие, практически незначительные различия могут быть статистически значимыми. Чтобы развеять такие опасения, используется проверка практической значимости. Тесты практической значимости предлагают эвристики для предметной области, которые используются для определения того, оказывает ли различие значимое влияние в реальном мире. При больших размерах выборки, когда статистические тесты практически ненадежны, тесты на практическую значимость являются полезным дополнением. Однако тесты на практическую значимость могут быть ненадежными при небольших размерах выборки.

Методология

Подход 1

Обычно используемый подход к структурному анализу неблагоприятного воздействия заключается в использовании таблицы непредвиденных обстоятельств 2 на 2. В таблице непредвиденных обстоятельств сравниваются показатели выбора данного процесса между основной группой и группой сравнения. Фокусная группа и группа сравнения — это две подгруппы в защищенной категории, которую мы хотим сравнить. В контексте оценки соответствия кандидат считается «отобранным», если полученная им оценка соответствия выше некоторой пороговой оценки T. Смоделированные показатели отбора не могут контролироваться из-за характера вычисления и зависят исключительно от предсказаний модели и установленных порогов. Сравнение коэффициентов отбора выглядит следующим образом (табл. 1):

В столбце «Выбрано» представлено количество заявителей с оценкой выше «Т». В столбце «Не выбрано» представлено количество заявителей с оценкой ниже «Т». Основным атрибутом, анализируемым при анализе неблагоприятного воздействия, является коэффициент отбора. Коэффициенты отбора для целевой группы, группы сравнения и общего пула кандидатов определяются следующим образом:

Чтобы проиллюстрировать применение Таблицы 3, рассмотрим следующий сценарий: на данную вакансию претендуют 100 претендентов. Из этих 100 заявителей 15 заявителей объявили свою расу азиатской, 25 заявили свою расу черной, а 60 заявили другую расу или предпочли не указывать свою расу/этническую принадлежность. Затем рекрутер использует предельный балл соответствия 3,5, чтобы отфильтровать кандидатов. Среди заявителей, указавших свою расу/этническую принадлежность, 7 азиатов из 15 получили оценку соответствия больше или равную 3,5 и, таким образом, были «отобраны». Точно так же 14 из 25 чернокожих заявителей, заявивших о своем поле, получили оценку выше 3,5 и были отобраны. В этом сценарии сгенерированная таблица непредвиденных обстоятельств будет

Цель этого анализа состоит в том, чтобы определить, приведет ли применение такой пороговой оценки к неблагоприятным последствиям. Таблицы непредвиденных обстоятельств, такие как приведенная выше, дают удобоваримое представление о потоке кандидатов по двум подгруппам защищенной категории, а также упрощают статистические расчеты.

Что касается статистических тестов, то первый тест, который мы рассмотрим, — это Z или тест двух стандартных отклонений, который рассчитывается следующим образом:

Этот тест используется для определения статистической значимости различий в скорости отбора. Когда абсолютное значение тестовой статистики больше 1,96 (т. е. Z ‹ -1,96 или Z > 1,96), тест указывает на статистически значимое различие между двумя уровнями отбора. На интуитивном уровне тест предполагает, что при нулевой гипотезе различия в показателях отбора нормально распределены со средним значением, равным 0, и стандартным отклонением, оцененным по таблице непредвиденных обстоятельств как:

Оценка стандартного отклонения из таблицы непредвиденных обстоятельств, особенно его зависимость от размеров выборки в термине из приведенного выше уравнения (уравнение 1)

приводит к монотонному увеличению z-статистики с увеличением размера выборки. Учтите, что общий коэффициент отбора зафиксирован на уровне 30%, а коэффициенты отбора между фокальной и контрольной группами различаются на 1%. Далее предположим, что количество заявителей из фокусной и контрольной групп одинаково, так что статистическое уравнение теста упрощается до:

На следующем графике (рис. 1) показано значение статистики Z с числом заявителей из каждой группы от 2 до 50 000 заявок.

Как видно из приведенного выше рисунка, одна и та же разница в показателях отбора увеличивается в статистической значимости по мере увеличения размера выборки. На практике, однако, абсолютная разница в 1% в показателях отбора не может быть существенной разницей независимо от размера выборки. Интуитивно понятно, что по мере увеличения количества приложений оценочное стандартное отклонение уменьшается. В результате даже небольшие различия в показателях отбора могут отличаться от 0 более чем на 2 стандартных отклонения. В частности, в масштабе миллионов приложений Z-тест становится ненадежным индикатором систематической ошибки.

В этих случаях очень больших размеров выборки обычно используемые тесты практической значимости, такие как правило 4/5, могут быть более надежными. Правило 4/5 [REF] представляет собой руководство, которое предполагает, что коэффициент неблагоприятного воздействия может быть определен как:

должно быть от 0,8 до 1,25. Когда IR ниже 1, это показатель того, что группа сравнения предпочтительнее, чем основная группа, а когда IR выше 1, это указывает на то, что основная группа предпочтительнее, чем группа сравнения. В совершенно нейтральном процессе отношение было бы равно 1, однако правила 4/5 устанавливают правило, согласно которому небольшие отклонения от 1, как правило, не будут считаться существенно отличающейся степенью отбора, в то время как отношения за пределами диапазона от 0,8 до 1,25, как правило, будут учитываться. существенно разная скорость отбора. Поскольку понятие значимости правила 4/5 не зависит от размера выборки, правило 4/5 дает практически полезные результаты при больших размерах выборки. Однако при небольших размерах выборки выбор еще одного кандидата из группы, находящейся в неблагоприятном положении, вместо группы, находящейся в благоприятных условиях, может изменить результат теста. Статистическая значимость делает тесты статистической значимости устойчивыми к таким небольшим возмущениям при небольших размерах выборки. Поскольку тесты практической значимости не имеют такого понимания, на практике применяются дополнительные эвристики, такие как правило «переворота», чтобы сделать правило 4/5 более надежным при небольших размерах выборки.

Заметное ограничение IR можно наблюдать при чрезвычайно низких скоростях отбора (‹5%). Когда общие коэффициенты отбора низкие, небольшие различия в коэффициентах отбора оказывают гораздо большее влияние на IR, чем при высоких коэффициентах отбора. Чтобы понять этот момент, предположим, что есть 100 соискателей-мужчин и 100 соискателей-женщин. Из них выбирается 1 кандидат-мужчина и 2 кандидата-женщины. Коэффициенты отбора мужчин и женщин составляют 1% и 2% соответственно, а коэффициент отбора мужчин в качестве целевой группы составляет 0,5, что ниже порогового значения 0,8. И наоборот, если были отобраны 4 кандидата-мужчины и 5 кандидатов-женщин, коэффициент влияния составит 0,8, что соответствует правилу 4/5. По сути, одна и та же разница в 1 дополнительный отбор дает значительный результат при низких коэффициентах отбора и незначительный результат при несколько более высоких коэффициентах отбора.

В то время как понятие статистической значимости позволяет тестам статистической значимости отличать статистически значимые различия от тех, которые возникают просто случайно, статистические тесты, как правило, слишком консервативны в пометке статистически значимых результатов, когда размеры выборки малы. В этих случаях говорят, что тест имеет низкую мощность. Таким образом, одно из предположений Z-теста состоит в том, что выполняется предположение о большой выборке. Точный критерий Фишера (FET) используется, когда предположение о большой выборке не выполняется. В случае FET тест предполагает, что предельные частоты поддерживаются постоянными, и тест вычисляет точную вероятность выбора наблюдаемого числа кандидатов из фокусной группы при нулевой гипотезе. Эта вероятность p может быть выражена как [REF]:

Поскольку точные тесты не полагаются на аппроксимацию нулевого распределения, а скорее вычисляют значение p непосредственно из истинного нулевого распределения, точные тесты, такие как FET, являются предпочтительными тестами, когда предположение о большой выборке не выполняется. Однако при больших размерах выборки вычисление FET становится нетривиальным, поскольку произведение больших факториалов может быстро привести к арифметическим переполнениям.

В целом, каждый из трех описанных выше тестов — Z-тест, FET и IR — имеет ряд ключевых ограничений, которые не позволяют практикам полагаться исключительно на один из них.

Статистически Z-Score имеет тенденцию быть менее надежным, когда речь идет о небольших размерах выборки. При больших размерах выборки z-показатель также имеет тенденцию быть чувствительным к небольшим, практически незначительным различиям в коэффициентах отбора. Это оставляет нам выборки среднего размера, где тест становится более надежным.

С другой стороны, точный критерий Фишера эффективен как для небольших, так и для выборок среднего размера, однако по мере увеличения размера выборки его становится все труднее вычислять, поскольку факториалы приводят к арифметическому переполнению.

Импакт-коэффициент чувствителен к небольшим размерам выборки или небольшим коэффициентам отбора. При средних и больших размерах выборки метрика эффективна и надежна, но может привести к неправильной интерпретации небольших различий при низких коэффициентах отбора.

Подход 2

Подобно описанному выше подходу смоделированной скорости отбора, в этом методе у нас есть заранее определенный порог, вычисляемый с использованием медианы оценок, присутствующих в интересующем наборе данных. Используя это медианное значение в качестве порога, мы вычисляем коэффициенты выбора для каждой группы в защищенной категории. Коэффициенты отбора затем используются для вычисления коэффициентов влияния с использованием группы с максимальным коэффициентом отбора в качестве компаратора.

Подход 3

Другой подход, который мы видели в литературе, используемый для проведения анализа неблагоприятного воздействия, включает отношение средних баллов, связанных с различными группами в пределах защищенной категории. Этот подход может быть применим для систем, которые присваивают оценку паре позиция-профиль на основе пригодности кандидата для этой роли. Идея состоит в том, что соотношение между группой фокальных компараторов должно быть как можно ближе к 1.

Для данного конкретного анализа предпочтительны отношения ближе к 1.