Аннотация:

Предыстория. В новостях много говорится о стрельбе со смертельным исходом, совершенной полицией. За несколько лет до нынешнего интереса к стрельбе они немного выросли. Но что еще более важно, это изменение кажется таким незначительным по сравнению с все более непропорциональным вниманием, которое ему уделяется.

Вывести этот вопрос на всеобщее обозрение помогает связь между расой и психическим заболеванием, которая была частью многих из зарегистрированных случаев. С таким вниманием к этой теме руководители искали дополнительные данные, которые помогут разобраться в происходящем и принять решения.

Задача: наша команда хотела изучить факторы, которые сыграли роль в ужасном событии - стрельбе со смертельным исходом. Какие из них имеют больший вес, что приводит к летальному исходу и, возможно, носит прогнозирующий характер? Они гонки? Государственное расположение? Психическое заболевание? Основываясь на наших выводах из набора данных доступных переменных, мы пытаемся предсказать расовую принадлежность или психическое заболевание умершего.

Методы. Во-первых, нам нужен был хороший набор данных. Мы обнаружили, что у газеты The Washington Post есть набор данных, доступный на GitHub, который представляет собой сборник всех полицейских стрельб с января 2015 года по настоящее время. По их сайту он активно обновляется. Они также нашли (и продолжают тратить) время на изучение новых записей, чтобы обеспечить точность отчетности.



Затем мы использовали этот набор данных с более чем 5700 точками данных в нашей настройке Jupyter / Python. Мы очистили и проанализировали данные, используя различные команды и структурные аспекты в модуле pandas, а также подсчитали и визуализировали их. Чтобы очистить данные, необходимо было очистить некоторые столбцы и изменить типы (т.е. нужно было вытащить даты и годы, а строки установить как категории). Затем мы запустили несколько моделей, используя OneVsOneClassifier для нашей расы и модель случайного леса для психических заболеваний, чтобы исследовать способность набора данных прогнозировать тенденции и определять потенциальную причинно-следственную связь.

Мы включили несколько характеристик или независимых переменных, таких как раса, пол, местонахождение и психическое заболевание, среди некоторых других. Мы будем использовать их, чтобы оценить, какие из них могут иметь отношение или не иметь отношения к стрельбе в полиции со смертельным исходом.

Результаты: белые, иностранцы, не являющиеся выходцами из Латинской Америки, составили 45,49% жертв, а черные, иностранцы, не являющиеся выходцами из Латинской Америки, заняли второе место с 23,72%, а выходцы из Латинской Америки заняли третье место с 16,53% всех перестрелок с 2015 по середину 2020 года.

Психическое здоровье показало, что большинство жертв по всем направлениям не были психически больными: 30,33% всех жертв были белыми мужчинами без болезней, а 19,50% всех жертв были чернокожими мужчинами без болезней.

Наша модель случайного леса действительно показала относительную приличную точность (77%) в предсказании того, была ли жертва психически больной или нет.

Выводы. Изначально кажется, что расовая принадлежность не так важна для этого обсуждения, как считалось ранее. Белые нелатиноамериканцы были убиты больше, даже в процентном отношении (45%), чем другие расы, а черные, неиспаноязычные выходцы были вторыми (23%). Психические заболевания не так распространены среди тех, в кого стреляли, но, основываясь на наших данных, мы можем определить, была ли жертва психическим заболеванием или нет.

Возможно, что интересно, мы обнаружили, что недостаточно данных, чтобы предсказать, была ли определенная раса связана или коррелирована с остальными характеристическими переменными, которые мы исследовали. Поскольку учитывалось так много белых и черных рас, у некоторых других рас было слишком мало подсчета, чтобы модель могла учиться и иметь возможность предсказывать. Мы пришли к выводу, что для прогнозирования этого нам потребуется больше данных.

Отсутствие данных для определения корреляции с расой и характеристиками также препятствует возможности с уверенностью определить, была ли жертва убита из-за одной из переменных характеристик.

Кроме того, использования одного набора данных здесь недостаточно для проведения всестороннего тщательного изучения этой проблемы, чтобы увидеть предвзятость полиции в отношении стрельбы со смертельным исходом. Другие переменные должны быть учтены, такие как (но не ограничиваясь этим) экономический уровень и предыдущая сумма обвинений жертвы (включая степень тяжести, то есть насильственные, ненасильственные).

Ключевые слова: полиция, стрельба, со смертельным исходом, раса, психическое состояние, здоровье.

Вступление:

Небольшая заметка от авторов; хотя изучение стрельбы в полиции - это деликатная тема, мы с уважением относимся к тем, кто с честью выполняет обязанности полицейских, и всем сердцем скорбим о потере любимого человека, независимо от событий, которые привели к их смерти.

Учитывая, что нация в настоящее время разделена по нескольким признакам, мы подумали, что будет полезно изучить данные о полицейских стрельбах со смертью и связанных с ними факторах. Восприятие тех, кто следит за сообщениями СМИ по этой теме, обычно быстро указывает пальцем в нескольких направлениях, а затем делает выводы. Некоторые из этих выводов могут быть или не быть обоснованными, учитывая анекдотический характер прямой трансляции новостей и эмоциональное воздействие этой темы на людей.

При исследовании этой темы часто возникает вопрос, что в этой области недостаточно данных, исследований и науки, чтобы помочь лидерам в нашей стране начать формализовать планы и стратегии, чтобы помочь в решении этой проблемы. Как видно из заголовка 2019 года: Разыскивается: более точные данные о полицейских стрельбах, чтобы уменьшить недоверие между полицией и сообществами, которым они служат. »

Затем, совсем недавно, после беспорядков Джорджа Флойда: Остается неясным, какие правоприменительные практики на самом деле являются лучшими, в основном из-за отсутствия данных и научных данных. «Мы не знаем, какие стратегии, тактики и политики являются наиболее эффективными, - говорит Робин Энгель, директор Центра полицейских исследований и политики в Цинциннати, штат Огайо.

Недавняя статья, хотя и выражает разочарование из-за отсутствия достаточного количества данных, все же ссылается на несколько исследований, которые были проведены в последние годы в этой области. Эти исследования действительно показали склонность к расовым предубеждениям. Например, исследование «Отвечая на звонок», в котором изучалось, как белые полицейские, реагирующие на чернокожие районы, вынимают оружие чаще, чем чернокожие полицейские в аналогичных районах.

Эта же статья примерно подкрепляла наши данные, когда также сообщалось, что около 1000 мирных жителей ежегодно убиваются сотрудниками правоохранительных органов. -Наш набор данных насчитывает около 5700 человек, которых расстреляли менее чем за 5 лет.

Здесь мы надеемся пролить свет на эту тему. Хотя наши выводы краткие, возможно, они могут помочь другим лучше понять события, которые разворачиваются вокруг них.

Материалы и методы (очистка данных):

Мы начали с набора данных из Washington Post. Сначала наш исходный набор данных выглядел так:

  • id → int64
  • имя → объект
  • дата → объект
  • way_of_death → объект
  • вооружен → объект
  • возраст → float64
  • пол → объект
  • гонка → объект
  • город → объект
  • состояние → объект
  • sign_of_mental_illness → bool
  • уровень_угрозы → объект
  • бежать → объект
  • body_camera → bool
  • долгота → float64
  • широта → float64
  • is_geocoding_exact → bool

На основе приведенного выше набора данных следующие столбцы были изменены на категориальные типы:

  • Дата → Изменить на тип даты.
  • way_of_death → Категория
  • вооружен → Категория
  • пол → Категория
  • гонка → Категория
  • город → Категория
  • состояние → Категория
  • Уровень_угрозы → Категория
  • бежать → Категория

Далее мы проверили количество нулевых значений:

  • id → 0
  • имя → 218
  • дата → 0
  • way_of_death → 0
  • вооружены → 213
  • возраст → 262
  • пол → 2
  • гонка → 597
  • город → 0
  • состояние → 0
  • Признаки_дальней_злобы → 0
  • угроза_уровень → 0
  • бежать → 302
  • body_camera → 0
  • долгота → 282
  • широта → 282
  • is_geocoding_exact → 0

Для каждого из вышеперечисленных столбцов с нулевыми значениями нам нужно было подумать о том, как мы подойдем к этому. У нас было 3 варианта:

  1. Избавьтесь от конкретной строки.
  2. Избавьтесь от столбца целиком.
  3. Установите для нулевого значения какое-либо значение. Например, для числовых значений мы можем рассматривать ноль, среднее значение, медиану или использовать строку.

Так, например, мы увидели два нулевых значения для «пол». В первом случае конкретная жертва была указана как бисексуальная, небинарная и интерсексуальная. Поскольку мы имели дело только с мужчинами и женщинами, мы решили отказаться от этой конкретной строки. Второй экземпляр мы также отбросили, потому что в конкретной строке было много пропущенных значений. Имя, возраст, раса и пол не были доступны. Казалось разумным, что мы не сможем получить много информации из этого конкретного случая.

Чтобы сделать фрейм данных более удобочитаемым для читателя, мы заменили отсутствующее имя строковым значением «Имя недоступно». Точно так же отсутствующие значения включены с «неопределенным», раса и бегство с «U». Нулевые значения возраста были заполнены средним значением соответствующего пола и расы.

Мы заменили категории столбца расы на полные строки, чтобы сделать его визуально более понятным, когда мы провели пояснительный анализ:

  • ‘W’ → ‘Белый, неиспаноязычный
  • ‘B’ → ‘Черный, неиспаноязычный’
  • «А» → «Азиатский»
  • ‘N’ → ‘Индеец’
  • «H» → «латиноамериканец»
  • ‘O’ → ‘Другое’
  • «U» → «Неизвестно»

Для отсутствующих долготы и широты мы использовали «Nominatim», чтобы найти координаты на основе города и штата. Было два случая, когда нам приходилось выполнять поиск вручную.

Мы добавили день недели в фрейм данных на основе столбца даты, и был создан новый столбец. Мы решили добавить столбец «День», чтобы увидеть, есть ли тенденция, когда людям стреляли в течение недели.

В результате у нас остался очищенный набор данных, который мы можем использовать для анализа в наших результатах со следующей информацией:

ОБЩАЯ СТАТИСТИКА:

  • Всего у нас 5762 жертвы.
  • Средний возраст жертвы - 37,14657 лет.
  • Минимальный возраст - 6 лет.
  • Максимальный возраст - 91 год.
  • 25% -ный процентиль для возраста нашей жертвы - 27.
  • 50% -ный процентиль для возраста нашей жертвы - 36 лет.
  • 75% процентиль для возраста нашей жертвы - 45.

Мы также ввели дополнительный набор данных, чтобы помочь проанализировать количество или количество съемок в каждом штате. Нормализация на основе показателя на 100 000 человек для сравнения количества смертельных случаев со стрельбой по штатам казалась подходящей, поскольку первоначальные результаты показали, например, что Калифорния действительно высока. Итак, мы внесли данные о численности населения, взяв таблицу с веб-сайта Штаты США - Рейтинг по населению 2020. Затем количество выстрелов было разделено на численность населения соответствующего штата из этой таблицы. Затем, поскольку это число было очень маленьким, мы сделали его более читаемым, умножив его на 100000. Это означает количество расстрелов на 100 тысяч человек. Затем это было помещено в новый фрейм данных для использования позже.

Полученные результаты:

Во-первых, большое наблюдение.

Слева мы видим рейтинг и процентное соотношение по расам:

  • 45,49% были белыми
  • 23,72% были черными
  • 16,53% были латиноамериканцами
  • 10,4% были неизвестны
  • 1,64% были азиатами
  • 1,4% коренных американцев
  • 0,81% Другое

Поскольку расовая принадлежность - большой вопрос, входящий в этот проект, оценка количества жертв, основанная на расе, казалась совершенно логичной. Здесь мы увидели, что во всем наборе данных белые были убиты больше всего, а затем черные составляли почти половину процента белых. Этот график изначально был построен с прямым подсчетом, но затем для ясности использовалась процентная сумма. Следуя той же цепочке вопросов, мы взглянули на физическое местоположение по штатам по отношению к расам, которые были застрелены в этих штатах:

Мы уже знаем из приведенного выше графика «Процент по расе» о расовых процентах.

Кроме того, приведенный выше сюжет в Соединенных Штатах показывает нам, что большинство жертв, являющихся латиноамериканцами, были застрелены полицией в следующих штатах: Техас, Нью-Мексико и Калифорния. Это становится очевидным, когда мы обращаем внимание на фиолетовые точки.

Если смотреть на точки с розовыми цветами. Мы видим, что большинство из них расположены в центре страны. Мы могли бы сделать вывод, что большинство коренных американцев находятся в наибольшей опасности в центральной части страны.

Как мы уже не удивляемся, большинство жертв - белые. Зеленые точки разбросаны по всей стране.

Что действительно интересно отметить, так это то, что большинство желтых точек находится на Восточном побережье. Мы видим большинство точек на правой стороне страны, а не на левой. Это может быть признаком того, что темнокожие люди на восточном побережье больше подвержены опасности, когда они взаимодействуют с полицией. Мы определенно видим меньше желтых маркеров на западном побережье.

Затем мы хотели посмотреть, могут ли съемки иметь какое-то отношение, основанное на состоянии. Во-первых, глядя на сюжет «Стрельба по штатам», мы видим, что подавляющее большинство жертв были застрелены в Калифорнии, Техасе и Флориде, что имеет смысл, поскольку они входят в тройку самых густонаселенных штатов. В то время как в некоторых небольших штатах это показывает, что жертв меньше. Поэтому мы решили рассчитать количество жертв на душу населения, разделив количество смертельных выстрелов в штате на численность населения штата, а затем умножили это число на 100000.

В результате получился второй сюжет («Процент снимков на 100к по штатам»). Удивительно, но наша новая тройка лидеров - Аляска, Нью-Мексико и Оклахома - относительно небольшие штаты. Это показывает, что в этих штатах больше случаев стрельбы на относительной основе по сравнению с более крупными штатами, такими как Калифорния. Заметим, что Нью-Йорк является четвертым по численности населения штатом, но его фактическое количество и процентное содержание значительно ниже, чем в трех крупнейших штатах Калифорния, Техас или Флорида.

Этот график тепловой карты показывает уровень концентрации на основе количества выстрелов на 100 000 выстрелов, как показано на предыдущей гистограмме. Здесь мы очень наглядно видим, где больше всего жертв, если нормализовать по численности населения. Кроме того, мы можем видеть, что нахождение на среднем юго-западе вокруг Нью-Мексико и Оклахомы - не лучшие места на душу населения для стрельбы полицией. Аляска с ее размерами все еще кажется здесь возможным исключением.

Интересно отметить, что хотя на Восточном побережье появилось много точек (с расовой карты), его заливка довольно светлая. Таким образом, более густонаселенная территория Восточного побережья могла исказить наши результаты. Или, может быть, здесь происходит региональная психика?

Изучив карты форм анализа, мы рассмотрели психическое заболевание. На этом графике, показанном выше, мы видим, что распределение пола, расы и признаков психического заболевания неуравновешено. Как указывалось ранее, большинство жертв - белые неиспаноязычные мужчины.

В этом наборе данных у нас есть 30,33% всех жертв, представляющих белых неиспаноязычных мужчин без признаков психического заболевания, 19,50% - чернокожих мужчин неиспаноязычного происхождения без признаков психического заболевания и 13,19% - мужчин латиноамериканского происхождения без признаков психического заболевания. психического заболевания.

Одной из других исследуемых нами переменных была идея съемки с камеры тела и того, как по ней можно определить, был ли человек застрелен. Однако эта идея была отброшена в наших окончательных выводах, потому что у очень многих офицеров были выключены камеры, из-за чего данные были искажены, и их трудно было использовать в качестве определяющей переменной.

Основываясь на этом сюжете, большая часть съемок происходит на юго-восточном побережье, за ним следуют западное побережье и северо-восток. В то время как в центральной части страны таких явлений немного. Как правило, полицейские стреляют с выключенной камерой на теле полицейского, которая отображается красным цветом.

Распределение возраста по расе хорошо представлено среди всех в возрасте от 22 до 47, со средним значением 37. Обратите внимание, что мы заменили 262 нулевых значения в столбце «возраст» средними значениями, основанными на расе и поле. В таблице ниже показаны значения, используемые для 262 нулевых значений:

Кроме того, наш набор данных содержит возраст от 6 до 91 года. Из этого графика мы также можем видеть, что существует значительное количество выбросов для каждой расовой группы. В таблице ниже показано количество индивидуумов, минимальное, максимальное и среднее значение, а также количество отклоняющихся значений для каждой расы:

Из этой таблицы в этом наборе данных всего 94 выброса.

Обсуждение:

На основе нашего набора данных мы довольно усердно пытались найти некоторую предсказуемость при тестировании различных моделей, чтобы помочь предсказать, какой расы может быть жертва, на основе остальных переменных. Точно так же мы попробовали это с психическим здоровьем в качестве целевой переменной. Ниже приведены некоторые из наших выводов.

Моделирование (признаки психического заболевания) - Резюме:

Целью этой модели было предсказать, есть ли у жертвы признаки психического заболевания. Это проблема классификации, поэтому мы сначала начали разработку функций нашей модели. В качестве источника мы использовали очищенный набор данных.

Поскольку большинство наших функций являются категориальными переменными, и поскольку алгоритмы машинного обучения предпочитают иметь дело с числами, а не со строками, нам пришлось преобразовать наши функции в числовые значения. Мы преобразовали следующие столбцы в двоичные числа:

  • body_camera. Ложь = 0 - Истина = 1.
  • Пол. Мужской = 1 - Женский = 0.
  • Признаки_на_мы_лезни. Ложь = 0 - Истина = 1.
  • way_of_death. Shot = 0 - Shot and Tasered = 1.

После этого следующие столбцы были преобразованы в категориальные. По мере того, как мы продолжали разрабатывать наши данные, категориальный код был мгновенно закодирован с использованием метода pandas get_dummies.

  • вооруженный
  • гонка
  • угроза_уровень
  • бежать
  • день

Причина, по которой мы горячо кодировали эти конкретные столбцы, заключается в том, что они имеют несколько классификаций. Чтобы избежать предвзятости со стороны машины, мы горячо закодировали эти столбцы. Затем были исключены следующие столбцы, поскольку они не помогли нам в моделировании:

  • id
  • имя
  • Дата
  • город
  • штат
  • долгота
  • широта

Когда мы закончили обработку данных, чтобы подготовить их для наших алгоритмов машинного обучения, нам нужно было решить, какие модели использовать. Цель заключалась в том, чтобы выяснить, есть ли у жертвы признаки психического заболевания (Верно / Неверно). Мы пришли к выводу, что имеем дело с проблемой бинарной классификации, поэтому решили реализовать следующие модели:

  • Логистическая регрессия
  • SVC (классификация опорных векторов)
  • SGD (стохастический градиентный спуск)
  • Древо решений
  • Случайный лес

Перед реализацией моделей нам сначала нужно было разделить наши данные на обучающие и тестовые наборы. Мы решили использовать соотношение 80 к 20. Установив 80% для обучающей выборки и 20% для тестовой. После разделения данных мы создали фреймы данных X и Y для нашего обучающего и тестового набора.

Далее мы реализовали каждый из упомянутых выше алгоритмов. Используя параметры по умолчанию и случайное состояние 42, каждая модель обеспечила следующие оценки точности:

Мы знали, что наши функции необходимо масштабировать при использовании машин опорных векторов. Мы не сделали этого для SVC и SGD. Поэтому мы масштабировали наши функции с помощью StandardScaler от sklearn и повторно запустили модели, приведенные выше, чтобы увидеть, как изменилась оценка точности. После запуска алгоритмов с масштабируемыми функциями мы получили следующую таблицу результатов:

Мы не заметили большой разницы в оценке точности, но продолжили работу с таблицей выше. Мы выбрали две самые эффективные модели сверху и провели на них перекрестную проверку. После того, как мы провели перекрестную проверку с k-кратным 10 и оценочным значением «точность», мы получили следующие результаты:

Очевидно, мы могли видеть, что наши рабочие модели переоснащаются. Мы взяли более производительную модель и начали ее доводку. Случайный лес показал лучшие результаты по сравнению с деревом решений при перекрестной проверке.

Теперь мы сместили фокус на настройку наших параметров с помощью RandomizedSearchCV из sklearn. Мы попытались настроить следующие параметры и поискать наилучшие значения параметров.

  • «Бутстрап»: [Верно, Неверно],
  • «Max_depth»: [int (x) для x в np.linspace (start = 10, stop = 110, num = 11)],
  • «Max_features»: [«авто», «sqrt»],
  • «Min_samples_split»: [2,5,10],
  • «Min_samples_leaf»: [1,2,4],
  • «N_estimators»: [int (x) для x в np.linspace (start = 200, stop = 2000, num = 10)]

Результат нашего RandomizedSearchCV вернул следующий результат:

Лучшие параметры:

{'n_estimators': 200, 'min_samples_split': 10, 'min_samples_leaf': 2, 'max_features': 'sqrt', 'max_depth': 50, 'bootstrap': True}

Лучший оценщик:

RandomForestClassifier (max_depth = 50, max_features = ’sqrt’, min_samples_leaf = 2,

min_samples_split = 10, n_estimators = 200, random_state = 42)

Оценка:

0.7721573713791613

Используя RandomizedSearchCV, мы смогли улучшить нашу модель. И последнее, но не менее важное: мы оценили модель с помощью лучших оценщиков из нашего тестового набора. Для тестовой модели мы получили оценку точности 0,7715099155703908.

Итак, что это значит? Это означает, что наше значение из приведенной выше переменной final_model_accuracy представляет собой процент правильно спрогнозированных ярлыков. Всегда есть возможности для улучшения в отношении улучшения модели, например, сбора дополнительных данных, избавления от потенциальных выбросов и / или изменения количества функций, которые принимает наша модель. Однако на данный момент мы можем быть удовлетворены результатом наша модель.

Моделирование (Гонка) - Резюме:

Целью этой модели было предсказание расы жертвы. Это проблема множественной классификации, поскольку у нас есть 7 разных категорий. Напоминаем, что у нас есть следующие категории:

  • Азиатский
  • Черный, неиспаноязычный
  • Латиноамериканец
  • Коренной американец
  • Другой
  • Неизвестный
  • Белый, неиспаноязычный

Мы начали функциональную инженерию нашей модели, сначала используя очищенные исходные данные. Как и в нашей первой попытке, большинство наших функций являются категориальными переменными, поэтому мы преобразовали наши функции в числовые значения. Следующие столбцы преобразованы в двоичные числа:

  • body_camera. Ложь = 0 и Истина = 1.
  • Пол. Мужской = 1 и Женский = 0.
  • Признаки_на_мы_лезни. Ложь = 0 и Истина = 1.
  • way_of_death. shot = 0 и shot и Tasered = 1.

После этого следующие столбцы были преобразованы в категориальные и реализовано однократное кодирование для следующих столбцов с использованием метода pandas get_dummies, чтобы избежать каких-либо предубеждений для машины:

  • вооруженный
  • угроза_уровень
  • бежать
  • день

Затем были удалены следующие столбцы, так как эти столбцы не помогали нашему моделированию:

  • id
  • имя
  • Дата
  • город
  • штат
  • долгота
  • широта

Нам также пришлось преобразовать наш столбец расы в числовые значения. В этом упражнении по моделированию нашей целью была гонка, и нам нужно было сопоставить каждую строку с числом.

  • {«Белый, неиспаноязычный»: 0, «Неизвестный»: 1, «Другой»: 2, «Индейский»: 3, «Испаноязычный»: 4, «Черный,« неиспаноязычный »: 5,« Азиатский »: 6}

Когда мы закончили массировать нашу модель, мы разделили наши данные на обучающий и тестовый набор. Опять же, установив 80% наших данных в обучающий набор, а оставшиеся 20% - в тестовый набор. После разделения нашего набора данных мы масштабировали наши функции с помощью StandardScaler ().

Алгоритмы, которые мы использовали для нашей задачи множественной классификации, были следующими:

  • OneVsRestClassifier
  • K-Ближайшие соседи
  • Случайный лес
  • Нейронная сеть

Мы сделали прогноз на обучающем наборе и оценили каждую модель, используя показатель точности. Также использовался отчет о классификации, чтобы увидеть общую производительность каждой модели.

Отчет о классификации OneVsRestClassifier:

Отчет о классификации ближайших соседей:

Отчет о случайной классификации лесов

Отчет по классификации нейронных сетей:

Итоговый раунд 1 - баллы:

По результатам первого тура мы пришли к выводу, что все модели работают плохо. Таким образом, снижение точности при перекрестной проверке, возможно, объясняется чрезмерной подгонкой несбалансированного набора данных. В результате ни одна из моделей не позволила предсказать расу.

После нескольких попыток мы решили продолжить и более внимательно изучить наши данные. Построив график подсчета количества выстрелов по расе, мы видим, что наши данные несбалансированы с высокими значениями белых, неиспаноязычных (0) и черных, неиспаноязычных (5) и низкими числами в других категориях. Как показано на графике распределения гонок:

Использование алгоритма SMOTE для работы с несбалансированными данными позволило нам повысить дискретизацию данных и дополнить их новыми искусственными данными. Эта конкретная стратегия берет повторяющиеся выборки из классов меньшинства (1–6), чтобы увеличить количество точек данных и сбалансировать набор данных. См. График ниже и числа при повышении дискретизации.

Как показано выше, распределение данных сбалансировано, и мы повторно проанализировали наши модели, чтобы увидеть, есть ли какие-либо улучшения. Обратите внимание, что SMOTE использовался только для данных обучения, а не для данных теста. Мы получили следующие отчеты о классификации:

OneVsRestClassifier Balanced:

Сбалансированная классификация ближайших соседей по K:

Сбалансированный случайный лес:

Сбалансированная нейронная сеть:

Итоговый раунд 2 - результаты:

Из отчетов о классификации и приведенной выше таблицы видно, что производительность каждой модели со сбалансированным набором данных улучшилась. Далее мы видим, что при перекрестной проверке не происходит резкого изменения оценок, как в первом раунде.

Применяя к нашим тестовым данным наиболее эффективную модель OneVsRestClassifier, мы подумали, что хорошие числа из приведенной выше таблицы будут хорошим индикатором того, что наша модель будет работать хорошо. Однако тестовые данные дали нам плохую оценку точности 0,37. Это было не то, на что мы надеялись.

Когда дело дошло до передискретизации данных, мы пробовали разные стратегии. Мы увеличили классы меньшинств на 0,15; модель не показала никаких улучшений. Мы также использовали gridsearch для модели OneVsRestClassifier, и он не показал никакой разницы. В результате мы пришли к выводу, что нам необходимо собрать дополнительные данные, чтобы создать лучшую модель для прогнозирования гонки.

Выводы:

В нашем отчете мы удивились, показав, что гонка не была столь важным фактором, как мы изначально ожидали. Например, процент убитых белых людей составил немногим более 45, а черных - 23. Возможно, некоторые утверждения о том, что чернокожие страдают вдвое больше, нуждаются в переоценке.

Еще один пример ошибочно установленных ожиданий был замечен в ранее упомянутом исследовании «Ответ на звонок». В этой статье это исследование упоминается как белые полицейские, стреляющие в 5 раз больше, чем черные офицеры, в аналогичных чернокожих населенных пунктах. Но, глядя на данные, можно увидеть, что набор рассматриваемых точек данных (самые большие друг от друга) был ближе к четырехкратной разнице; не пять. Он был закруглен для облегчения написания, а при более внимательном наблюдении видно, что линия подгонки примерно в 3 раза больше.

Что касается расы, результаты наших исследований моделирования не позволили сделать вывод о расе, определяемой или предсказываемой другими задействованными переменными. Кроме того, на вопрос нашего исследования, если раса больше играла в причину, по которой в человека стреляли, наши модели не могли сказать. И, в конечном итоге, этот набор данных недостаточно велик по точкам данных или функциям, чтобы полностью ответить на этот вопрос. Это помогает поддержать идею, как упоминалось ранее, о том, что необходимо больше данных. Кроме того, из этого набора данных, содержащего всего 5700+ пунктов, возможно, раса - это еще не все, а, возможно, что-то еще, например, социальный класс или доходы. К сожалению, ни то, ни другое не было записано.

Еще одной переменной, которую мы рассматривали, было психическое заболевание. Результаты по этому поводу были более многообещающими для предсказания. Мы обнаружили тесную связь между человеком, страдающим психическим заболеванием, и другими переменными, связанными с жертвой смертельной стрельбы. Наши оценки показали, что это скорее прогнозирующая переменная или характеристика, чем характеристика расы. Похоже, это похоже на других исследователей.

В статье Люди с нелеченным психическим заболеванием в 16 раз больше вероятность быть убитыми правоохранительными органами »говорится, что люди с нелеченым тяжелым психическим заболеванием участвуют как минимум в 1 из 4 (столкновений с полицией). и аж половина всех полицейских, расстрелянных со смертельным исходом .

Возможно, на фатальные расстрелы сыграли региональные государственные факторы. Для нормализации мы рассматривали штаты США из расчета на 100 000 человек. Больше всего было на Аляске, но, вероятно, малочисленность населения все еще искажает этот результат. Однако несколько штатов относительного Запада были следующими по величине: Нью-Мексико, Оклахома, Аризона, Колорадо, Невада и Монтана. Может быть, это из-за малочисленности и общей разницы в психологии полицейских - может быть, менталитет «Дикого Запада»?

Теперь, безусловно, более тщательное исследование должно учитывать другие переменные и соображения, такие как все население Соединенных Штатов (с учетом расового процента) и экономический уровень умерших. А также дальнейшие связи психических заболеваний с насильственными преступлениями и региональные исследования полицейских методов урегулирования споров. Кроме того, более широкий набор взаимодействий с полицией, включая, помимо прочего, несмертельные ситуации, бытовые и дорожные ситуации и многое другое.

Даже с таким ограниченным взглядом на полицейских со смертельным исходом, необходимо больше, чем просто внимание полицейским управлениям.

Сет Стоутон, бывший офицер полиции, профессор права в Университете Южной Каролины в Колумбии, сказал: «Я убедился, что у нас нет расовой проблемы в полицейской деятельности. Скорее, у нас есть расовая проблема в обществе, которая отражается в работе полиции ».

Однако, несмотря на ограниченность данных и все проблемы с расой среди населения в целом, полиция осознает необходимость что-то делать. Они могут помочь задать тон тому, что видит широкая публика.

Опрос 47 крупнейших правоохранительных органов США в период с 2015 по 2017 год показал, что 39% изменили свою политику использования силы в 2015–2016 годах и пересмотрели свою подготовку, включив в нее такие приемы, как деэскалация. Среди опрошенных агентств стрельба с участием офицеров снизилась на 21% за исследуемый период «11 »4.

Такого рода результаты являются началом реальных изменений, которые могут помочь нашей стране с надеждой двигаться в будущее. И что, несмотря на наши неполные и неправильно понятые данные, мы все же можем признать очень реальную и активную потребность сделать что-то, чтобы помочь всем нашим соотечественникам-американцам чувствовать себя в безопасности и довести эти действия до конца.

Благодарности:

Мы хотели бы поблагодарить The Washington Post и их данные из открытых источников за то, что это стало возможным.



Использованная литература:

Приложения: