Рейтинг ProPublica по шкале COMPAS и данные о рецидивизме

В недавнем исследовании статья я повторно исследую данные шкалы риска рецидивизма COMPAS и криминального прошлого, собранные ProPublica за новаторскую 2016 статью об алгоритмической справедливости в судебной системе.

Я обнаружил, что ProPublica допустила ошибку обработки данных при создании ключевых вложенных наборов данных использованный в анализе для этой статьи. Ошибка данных , которую я идентифицировал, весьма существенно влияет на некоторые из наиболее фундаментальных аспектов этих ключевых поднаборов данных, такие как размер выборки, количество рецидивистов и уровень рецидивизма. . По моим оценкам, уровень рецидивов смещен в сторону увеличения почти на 25%.

Несмотря на это, что интересно, обнаруженная мною нетривиальная ошибка обработки данных незначительно влияет на наиболее громкий результат, о котором сообщает ProPublica с использованием тех же поднаборов данных. А именно, ложноположительные и ложноотрицательные показатели для афроамериканцев по сравнению с кавказцами.

КОМПАС и аналогичные оценки прогнозирования рисков иногда используются для принятия различных решений в судебной системе, например, касающихся освобождения под залог и предварительного заключения, вынесения приговора, а также пробации и условно-досрочного освобождения ( Cowgill 2018 и James 2018).

Основываясь на своем анализе, сосредоточенном на одном наборе прогнозных показателей, ProPublica пришла к выводу, что оценка риска рецидивизма COMPAS была смещена по отношению к афроамериканцам. Компания Northpointe Inc., разработавшая систему оценки рисков COMPAS, используя те же данные, но сосредоточив внимание на другом наборе прогнозных показателей, защитила оценки риска как беспристрастный.

Из-за противоречивого характера темы и результатов, а также публичной доступности данных новаторская работа ProPublica в области журналистских расследований вызвала интенсивные дискуссии и исследования в зарождающейся области ярмарки машинное обучение или алгоритмическая справедливость.

Оценка ProPublica по системе COMPAS и данные о рецидивизме стали, пожалуй, наиболее известными данными сравнительного анализа, используемыми исследователями для проверки новых или существующих определений и процедур алгоритмической справедливости. (См. Corbett-Davies and Goel 2018 и дополнительные ссылки, которые я привожу ниже; или один из нескольких сообщений блога Medium)

Хотя данные ProPublica COMPAS используются во все большем количестве исследований, исследователи обычно принимают наборы данных, созданные ProPublica, такими, какие они есть, и , похоже, не исследуют их на предмет проблем с обработкой данных. Вместо того, чтобы тестировать новое определение или процедуру справедливости, я внимательно смотрю на фактические наборы данных, собранные ProPublica.

В частности, я изучаю вспомогательные наборы данных ProPublica, созданные для изучения рецидивов в течение двухлетнего окна после первоначального ареста обвиняемого в данных. Таким образом, я обнаружил, что ProPublica допустила существенную ошибку обработки данных при построении этих наборов данных о двухлетнем рецидиве.

Как показано ниже, ProPublica не удалось обеспечить двухлетнее ограничение выборки для рецидивистов (тогда как она сделала реализовать такое отсечение выборки для не -рецидивистов)

В результате ProPublica неправильно учитывала непропорциональную долю рецидивистов в двухлетних наборах данных. По моим оценкам, это смещение в двухлетнем общем рецидиве в сторону увеличения примерно на девять процентных пунктов, увеличив его с 36% до 45%.

Таким образом, рассчитываемый ProPublica показатель рецидивов за два года примерно на 25% выше, чем истинный показатель рецидивов за два года в тех же данных, когда он обработано правильно.

В своей исследовательской работе я также исследую, как эта ошибка обработки данных влияет на другие статистические данные. В частности, я смотрю на анализ матрицы недоразумений ProPublica, показывающий высокие / низкие оценки по системе COMPAS в сравнении с двухлетним статусом рецидивизма. Я обнаружил, что предвзятые двухлетние наборы данных также оказывают существенное влияние на положительную прогностическую ценность (или точность ) и отрицательное прогнозирующее значение.

С другой стороны, предвзятые двухлетние наборы данных относительно незначительно влияют на некоторые другие ключевые статистические данные в анализе матрицы неточностей, а именно: em> менее восприимчивы к изменениям в относительной доле рецидивистов по сравнению с нерецидивистами. В частности, это точность, количество ложных срабатываний и количество ложных отрицательных результатов.

Ключевой вывод ProPublica: выше ложных срабатываний и ниже ложноотрицательных коэффициент для афроамериканцев по сравнению с кавказцами, поэтому не меняется при правильной обработке данных.

Насколько мне известно, это первая попытка выделить ошибку обработки данных, упомянутую выше. В этом сообщении в блоге я резюмирую свою исследовательскую статью.

(Если вы хотите прочитать еще более короткое резюме, посмотрите мою короткую версию этого сообщения в блоге. Я также создал репозиторий GitHub » с программой R, которую я написал для анализа данных)

Данные

В 2016 группа журналистов из ProPublica получила набор данных о более чем 11 тысячах досудебных обвиняемых из округа Бровард, штат Флорида , который был арестован и оценен с помощью системы проверки COMPAS в период с 1 января 2013 г. по 31 декабря 2014 г.. (Скрининговое обследование КОМПАС проводится досудебными службами в сотрудничестве с обвиняемым после его или ее ареста)

Затем ProPublica собрала данные о будущих арестах до конца марта 2016 года, чтобы изучить, насколько хорошо оценка риска COMPAS позволяет прогнозировать рецидивы среди этих обвиняемых (и опубликовала свою статью в мае 2016 года). (данные и анализ ProPublica описаны здесь)

Расследование ProPublica было поистине новаторским . Оно использовало запросы общедоступных записей для получения баллов по системе COMPAS, дат проверки и личной информации о группе обвиняемых, а также информацию о тюрьмах и тюрьмах для их. Затем он сопоставил и объединил эти разрозненные источники данных.

ProPublica получила информацию о криминальном прошлом после даты проверки COMPAS для этой выборки обвиняемых до суда из общедоступных криминальных записей на веб-сайте офиса клерка округа Бровард до конца марта 2016 года. веб-сайт Департамента исправительных учреждений Флориды)

ProPublica собрала данные для своего исследования и создала базу данных. На основе этой базы данных было создано несколько вспомогательных наборов данных, которые объединили и рассчитали различные характеристики. Например, индикаторная переменная для повторного ареста за новое преступление в течение двух лет после первоначального преступления. Затем ProPublica экспортировала эти поднаборы данных в файлы .csv. Эти файлы наиболее часто используются другими исследователями. (Опять же, данные ProPublica в Интернете доступны здесь)

В основном я использую два файлов .csv, созданных ProPublica, а именно: compas-scores.csv и compas-scores-two-years.csv . первый csv-файл содержит полный набор данных досудебных обвиняемых, который ProPublica получила от шерифа округа Бровард. В этом файле содержится более 11 тысяч досудебных обвиняемых, которые затем сокращены до 10 331 ответчиков, частично из-за проблем с качеством данных, поскольку Я описываю в своей исследовательской статье. (Я все еще называю этот слегка урезанный набор данных полным набором данных)

Указанный выше второй файл csv - это файл, созданный ProPublica специально для изучения двухлетнего общего рецидивизма. Термин общий рецидив используется, чтобы отличить его от меньшего подмножества насильственного рецидивизма. Общий рецидив включает как насильственные, так и ненасильственные преступления. В этом посте я сосредоточусь на двухлетнем наборе данных о общем рецидиве, но набор данных о двухлетнем насильственном рецидиве, созданный ProPublica, страдает той же проблемой обработки данных, которую я описываю здесь.

Этот файл о рецидиве за два года теоретически содержит подгруппу людей, наблюдаемых в течение как минимум двух лет, и ProPublica помечает людей в этом файле, которые рецидивировали в течение двух лет, как имеющих индикатор two_year_recid включен. CSV-файл общего рецидивизма ProPublica за два года содержит 7 214 человек.

Распределение даты на экране КОМПАС

Полные данные

Я начинаю с просмотра полного набора данных 10 331 обвиняемых. Я составляю гистограмму с количеством случаев или арестов на дату проверки по системе COMPAS (которая обычно выполняется на следующий день или через день после ареста). Чтобы четко увидеть ошибку обработки данных, я разделяю экранные гистограммы данных COMPAS для рецидивистов и нерецидивистов.

Я использую 7-дневные (т. Е. Недельные) бины данных для этих и последующих гистограмм. Для справки (на будущее) я рисую красную вертикальную линию 1 апреля 2014 г., которая является двухлетней отметкой раньше до конца окна сбора данных о судимости ProPublica. (в конце марта 2016 г.).

Во-первых, для полного набора данных, кроме несвязанного, но очень заметного, падения в датах экрана COMPAS в середине 2013 года (как для рецидивистов, так и для нерецидивистов), Рисунок ниже кажется разумным.

неясно, почему наблюдается падение на экранах или корпусах COMPAS в середине 2013 года. В той мере, в какой это проблема, похоже, проблема с исходным набором данных, который ProPublica получил из округа Бровард, поскольку это также очевидно в compas-scores-raw.csv набор данных. Таким образом, это не похоже на ошибку обработки данных со стороны ProPublica, и я не затрагиваю эту проблему ни в этом сообщении, ни в своей статье.

Данные за два года (ошибка обработки)

Для построения двухлетних наборов данных о рецидивах ProPublica, по-видимому, хотела, чтобы люди наблюдались в течение как минимум двух лет в конце временного окна, за которое он собирал данные о судимости в конце марта 2016 года. Поэтому нам не следовало ожидать, что мы увидим любых обвиняемых в двухлетних наборах данных с датами проверки (или ареста) КОМПАС после 1 апреля 2014 г.. (То есть люди наблюдались меньше, чем за два года до даты окончания сбора данных о судимости, которые собирала ProPublica).

Однако, как показано на следующем рисунке, в двухлетнем наборе данных есть много людей (в частности, рецидивистов), у которых действительно есть дата проверки (или ареста) по системе COMPAS после этого потенциального отсечения. У них есть даты проверки КОМПАС до 31 декабря 2014 года, который является последней возможной датой первоначального ареста и проверки КОМПАС в базе данных ProPublica.

Причина в том, что для создания двухлетнего набора данных ProPublica использовала следующую логику:

  • Сохраняйте людей в наборе данных, если они наблюдаются в течение двух или более лет (вне тюрьмы и тюрьмы) после даты их проверки в системе COMPAS, когда ProPublica собирала данные в конце марта 2016 года.
  • Также наблюдайте за людьми менее, чем два года (за пределами тюрьмы и тюрьмы), если они рецидивировали.

Вот код на Python, который использовала ProPublica (для двухлетней отметки используется срок службы 730 дней):

Вторая строка этого кода гарантирует, что для нерецидивистов их экранная дата по системе КОМПАС предшествует 1 апреля 2014 г., поскольку они должны соблюдаться (за пределами тюрьмы и тюрьмы). более двух лет (или 730 дней) в данных.

(Эта часть логики кажется верной. Учет тюремного заключения и тюремного срока, отбытого за исходное преступление, вызвавшее срабатывание экрана КОМПАС, кажется разумным, поскольку вероятность рецидива может быть совершенно иной, пока человек отбывает тюремный срок)

Однако для рецидивистов первая строка приведенного выше кода показывает, что это требование не выполняется. Предположительно, ProPublica осознала, что нет необходимости наблюдать за рецидивистами в течение полных двух лет вне тюрьмы и тюрьмы. Учитывая, что они рецидивировали и могли быть помещены в тюрьму на нетривиальный срок за повторное преступление после их первоначального свидания на экране КОМПАС. И все же явно хотелось бы включить таких людей в данные.

Хотя логично не выполнять требование о том, что рецидивисты должны находиться вне тюрьмы или тюрьмы в течение двух лет, один должны по-прежнему применять для них выборку даты на экране КОМПАС не позднее 1 апреля 2014 г.. Но ProPublica не удалось этого сделать.

Неясно, намеревался ли ProPublica обрабатывать данные таким образом, и в этом случае это является концептуальной ошибкой, или он не намеревался использовать эту ошибочную логику, и в этом случае это данные ошибка обработки. В любом случае это приводит к одинаковым предвзятым выборочным двухгодичным поднаборам данных.

На приведенном ниже рисунке, основанном на наборе данных о общем рецидиве за два года, я снова указываю потенциальную дату прекращения действия экрана двухлетнего окна COMPAS красной вертикальной линией 1 апреля 2014 г. .

Это ключевая фигура в моей исследовательской работе. Он показывает резкую разницу в способах обработки ProPublica рецидивистов и нерецидивистов в двухлетнем наборе данных. На графике справа для не рецидивистов мы видим, что ProPublica правильно исключила ответчиков с датами проверки по системе COMPAS после 1 апреля 2014 г..

Однако на левой диаграмме для рецидивистов мы видим, что ProPublica не исключила обвиняемых с датами проверки по системе КОМПАС после 1 апреля 2014 г. . В самом деле, этот левый график является почти копией аналогичного графика из полного набора данных, показанного ранее. В двухлетнем наборе данных практически такое же количество рецидивистов, что и в полном наборе данных.

ProPublica не удалось внедрить двухлетний период отсечения выборки для рецидивистов

Чтобы подсчитать общее количество дополнительных рецидивистов, которые ProPublica неправильно сохранила в двухлетнем наборе данных, я провожу перекрестную таблицу двух- год рецидивизма с помощью флажка индикатора даты экрана до и после 1 апреля 2014 на экране КОМПАС и подсчитайте количество обвиняемых в каждой ячейке:

Поскольку ProPublica сохраняла рецидивистов (но не держала нерецидивистов) с датами на экране КОМПАС после 1 апреля 2014 г., все люди в наборе данных о двухлетнем рецидивизме с датами на экране КОМПАС после этой даты действительно являются рецидивистами. . На 998 рецидивистов, неправильно внесенных в двухлетние данные ProPublica, приходится 30,7% от 3 251 человека, которые рецидивировали в течение двух лет в этом набор данных. С другой стороны, мы можем сказать, что ProPublica сохранила на 998/2253 или 44,3% больше двухлетних рецидивистов, чем следовало бы.

Влияние на ключевую статистику

Эта фундаментальная проблема при построении набора данных о двухлетнем рецидивизме влияет на одни статистические данные больше, чем на другие. Как мы только что видели, это оказывает существенное влияние на общее количество рецидивистов и, следовательно, также на долю или уровень рецидивизма. В частности, оно искусственно завышает уровень рецидивов. Уровень рецидивов за два года в общем наборе данных о рецидивах за два года ProPublica следующий:

Таким образом, показатель рецидивов за два года в наборе данных ProPublica за два года составляет 45,1%. Однако, если мы снова посмотрим на переменную двухлетнего рецидива с помощью флажка индикатора даты на экране COMPAS до и после 1 апреля 2014 г., как мы это делали в первой таблице выше, но теперь в процентном выражении , у нас есть следующая таблица:

Мы видим, что если применить простое правило отсечения даты на экране КОМПАС 1 апреля 2014 г. для всех обвиняемых (включая рецидивистов), то двухлетний коэффициент рецидивизма будет быть 36,2%. Коэффициент 45,1%, который рассчитывает ProPublica, почти на девять процентных пунктов выше и, таким образом, смещен вверх более чем на 24%.

Другой способ измерить влияние ошибки обработки данных ProPublica на уровень рецидивизма - это провести анализ выживаемости. В своей статье я провожу такой анализ, и он подтверждает только что представленные результаты.

В своей исследовательской работе я также исследую, как эта ошибка обработки данных влияет на другие статистические данные. В частности, я смотрю на анализ матрицы заблуждений (или таблицы истинности) ProPublica по оценке COMPAS по сравнению со статусом двухлетнего рецидивизма. Для такого анализа ProPublica превратила оценку COMPAS в бинарный классификатор, состоящий из низких и высоких оценок. (В своей статье я делаю то же самое)

Помимо распространенности рецидивов (т. Е. Уровня рецидивов), предвзятый набор данных за два года, используемый ProPublica, также влияет на положительную прогностическую ценность (PPV ) (часто именуемой точность), отрицательное прогнозируемое значение (NPV) и обнаружение скорости. Если бы ProPublica правильно обработала двухлетние данные, что привело бы к более низкой распространенности рецидивизма, неудивительно, что PPV (и уровень выявления) были бы ниже, а NPV - выше.

С другой стороны, предвзятый двухлетний набор данных относительно незначительно влияет на ряд других ключевых статистических данных, которые менее подвержены изменениям в относительная доля рецидивистов по сравнению с нерецидивистами. В частности, точность, частота ложных срабатываний (FPR) и частота ложных отрицательных результатов. (FNR). (Или один минус эти показатели, т. Е. специфичность и чувствительность)

FPR по определению не зависит от фактического количества положительных результатов (или рецидивистов) в данных. Это отношение числа случаев, прогнозируемых как положительных (или рецидивирующих), но которые не на самом деле положительные, по всем случаям, которые не являются положительный. Таким образом, FPR рассчитывается только на основе фактических отрицательных результатов (т. Е. Только людей, которые не рецидивируют). В результате при правильной обработке данных FPR остается в точности таким же, как FPR в двухлетних данных ProPublica.

Аналогичным образом, FNR основывается только на реальных положительных результатах или людях, которые рецидивируют. FNR - это соотношение людей, прогнозируемых не рецидивирующих, но фактически рецидивирующих, по отношению ко всем людям, которые рецидивируют. Общее количество людей, которые рецидивируют, сильно отличается при правильной обработке данных. Однако это мало повлияет на FNR до тех пор, пока баллы COMPAS 998 дополнительных рецидивистов ProPublica, неправильно сохраненные в двухлетних данных, аналогичны баллам COMPAS 2253 рецидивистов, правильно сохранивших такие данные. В своей исследовательской работе я показываю, что это действительно так.

Учитывая идентичный FPR и очень похожий FNR, в своей статье я также показываю, что также почти нет влияния на рабочие характеристики приемника (ROC) кривая и площадь под этой кривой.

В своей исследовательской работе я также повторяю анализ матрицы путаницы отдельно для афроамериканцев и европеоидов. Это ключевой анализ, который привлек наибольшее внимание, когда ProPublica опубликовала свою статью в 2016 году, показывая более высокий ложноположительный показатель (FPR) и более низкий показатель ложных отрицательных (FNR) для афроамериканцев, чем для европеоидов.

Как и ожидалось, аналогично только что обсужденным комбинированным результатам гонки, FPR идентичен, а FNR очень похож при правильной обработке данных, поэтому афроамериканцы по-прежнему имеют значительно более высокий FPR и более низкий FNR, чем Кавказцы. Таким образом, это ключевое открытие ProPublica не меняется при правильной обработке данных. ¹

Хотя, как и в случае с результатами объединенных данных о гонках, при правильной обработке данных за два года возникают существенные изменения в других статистических данных для каждой группы рас. В частности, уровень рецидивов, PPV и NPV для каждой расовой группы значительно изменяются.

В конечном итоге практическая важность ошибки обработки данных, которую я здесь указываю, может быть ограниченной. Я не предполагаю, например, что Northpointe допустила ошибку при разработке самой оценки риска рецидивизма COMPAS (хотя данные, используемые для этого, и фактическая модель, являются собственностью и не являются общедоступными).

Однако опыт в предметной области не всегда приводит к правильно обработанным данным. Например, критика Northpointe анализа ProPublica с использованием тех же наборов данных ProPublica COMPAS не может выявить ошибку обработки данных ProPublica.

Другие исследователи, работавшие с этими данными, также не смогли определить ошибку обработки в двухлетнем наборе данных ProPublica. В результате, как я подробно описал в своей исследовательской статье, они дают цифры с показателями рецидивов за два года, которые смещены в сторону увеличения.

Несмотря на это, их анализ остается в силе. Большинство справедливых исследований машинного обучения, похоже, нацелены на FPR, FNR или точность, на которые, как обсуждалось выше, не влияет ошибка обработки данных.

Наконец, многие потенциальные проблемы измерения могут повлиять на предполагаемый уровень рецидивов за два года в данных COMPAS ProPublica (как я упоминал в своей статье). Некоторые из них могут оказывать нисходящее давление на оценку, возможно, в некоторой степени компенсируя тенденцию к повышению, которую я здесь описываю.

Этот последний пункт, однако, не отменяет акцента на проблеме обработки данных, которую я определяю, и последующем исправлении данных, к которому я призываю. Я сосредоточен на внутренней достоверности обработки данных. Я не утверждаю, что после этого исправления у данных не будет каких-либо оставшихся проблем или что они обязательно будут иметь внешнюю достоверность, что выходит за рамки моего анализа.

В любом случае, похоже, никто ранее не визуализировал даты проверки КОМПАС для набора данных о двухлетнем рецидиве, как я сделал выше. (Если да, то она не получила широкого распространения) Таким образом, ошибка обработки данных, которую я идентифицировал здесь, сохраняется и распространяется более трех лет (за заметным исключением Rudin et al. 2018). ²

В моем сообщении и статье я пытаюсь снова сфокусировать внимание и выделить потенциальные ловушки на этапе обработки данных.

Сноски

  1. Недавно исследователи указали на некоторые потенциальные недостатки алгоритмической цели справедливости паритета классификации, которая пытается уравнять меру ошибки классификации, такую ​​как FPR или FNR, по подгруппам населения (Corbett-Davies and Goel 2018). Другая работа показала, что несколько популярных целей алгоритмической справедливости несовместимы и невозможно достичь одновременно (например, Chouldechova 2016 и Kleinberg et al. 2018).
  2. Рудин и др. 2018 реконструировать наборы данных ProPublica COMPAS из исходной базы данных ProPublica (и сделать их доступными ). Поступая таким образом, они, похоже, избежали той же ошибки обработки данных, которую делает ProPublica в отношении поднаборов данных о двухлетнем рецидиве. Тем не менее, они явно не идентифицируют и никоим образом не выделяют двухлетнюю ошибку обработки данных ProPublica. Их цель совершенно иная, поскольку они пытаются реконструировать оценки риска рецидивизма COMPAS, чтобы понять, как Northpointe строит эти оценки.

Еще более краткое резюме моей статьи см. В моей короткой версии этого сообщения в блоге. Полная версия моей статьи доступна на arXiv. Я также создал репозиторий GitHub с программой R, которую я написал для анализа.

Я штатный экономист Федеральной торговой комиссии. Это исследование проводилось независимо от моей работы в FTC. Взгляды, выраженные в этой статье, принадлежат автору. Они не обязательно представляют интересы Федеральной торговой комиссии или ее уполномоченных.