Машинное обучение (анализ правил ассоциации)

Введение

Этот проект представляет собой анализ известной полицейской стратегии полиции Нью-Йорка, известной как SQF; что является аббревиатурой от «Stop, Question, and Frisk».

Программа SQF Департамента полиции Нью-Йорка представляет собой полицейскую политику/тактику временной остановки, допроса, обыска и, возможно, задержания пешеходов и потенциального обыска их на наличие оружия или контрабанды.

В 2011 году, в разгар программы, было остановлено более 685 000 человек, из которых почти 88% оказались невиновными. Это беспокойство, похоже, не уменьшилось, поскольку 2 года спустя программа SQF была признана неконституционной из-за политики косвенного расового профилирования. См. здесь.

Описание данных

Данные для этого проекта были собраны с веб-сайта полиции Нью-Йорка, и были проанализированы только данные за 2012 год. Меня особенно интересовали данные за 2012 год, потому что именно в 2012 году программа SQF подверглась самой тщательной проверке после саги о деле в Гарлеме. См. всю статью здесь.

Методология

Целью этого проекта является раскрытие базовых взаимосвязей между SQF и такими атрибутами, как «Раса», «Возраст», «Город», «Рост», «Месяц года», «День недели», «Час день ". Моделью машинного обучения, которая использовалась для определения и описания этих взаимосвязей, была Association Rule Mining в Python.

В этом проекте использовались следующие библиотеки Python: pandas, tqdm, datetime, pyproj, numpy, seaborn, folium и apriori. Все визуализации были выполнены с использованием matplotlib и seaborn, потому что визуализации достаточно наглядны, чтобы их можно было реализовать с меньшим количеством строк кода. Репозиторий GitHub для этого проекта можно найти здесь

Структура CRISP-DM была адаптирована для этого проекта для получения информации и выводов для отчета.

Понимание бизнеса

Понимание бизнеса ответило на вопросы, касающиеся цели программы SQF, а также того, как будет измеряться эффективность программы. Цель и задачи программы:

  • Сокращение насилия в целевых районах с высоким уровнем преступности.
  • Предотвращайте преступления и спасайте жизни.
  • Наконец, программу лучше всего оценивать на фоне ее целей и задач.

Понимание и подготовка данных

На этапе понимания данных я описал значение и тип данных для каждого атрибута в файле данных. См. шаги, которые я предпринял, чтобы это произошло ниже:

  • Сначала я импортировал Pandas, чтобы сохранить копию DataFrame в csv, чтобы получить лучшую картину, поскольку это были большие наборы данных, а затем импортировал Seaborn и Matplotlib. для просмотра результатов.
  • Столбцы, такие как возраст, вес, рост, дата и время остановки, период наблюдения и координаты x и y, были подтверждены как числа. Я убедился, что все числа были целыми числами и числами с плавающей запятой. Там, где данные не были целыми или плавающими, я приводил к NaN (не числу), которое является значением с плавающей запятой. Я импортировал tqdm только для визуального отслеживания индикатора выполнения преобразования.

  • Также в данных были отсутствующие, дублирующиеся и выпадающие значения, я удалил значения и соответственно обновил свой DataFrame.
  • Я также импортировал pyproj для создания столбцов широты и долготы в DataFrame. Это должно было отслеживать координаты SQF в пределах города.
  • Я импортировал numpy, а также использовал лямбда, поэтому я мог заменить значения в DataFrame соответствующими метками, сопоставив и сгруппировав метки значений для «Имени поля».
  • Затем я импортировал априорные правила ассоциации для чтения обновленного DataFrame, а затем использовал горячее кодирование вручную для кодирования «расы» и «города».

  • Кроме того, я преобразовал столбцы «примененная физическая сила», «остановлен внутри или снаружи» и «вооружён» в логические значения.
  • Наконец, я выбрал столбцы «Раса», «Город» и «Вооружен» для анализа ассоциаций, применил частый анализ набора элементов с минимальной поддержкой 0,01, а затем применил анализ правил ассоциации к минимальный порог 0,3. Я отсортировал правила по уверенности и построил диаграмму рассеяния «Поддержка против уверенности» для «расы» и «вооруженности».

Моделирование и визуализация данных

Визуализация данных, показывающая некоторые из наиболее важных атрибутов, которые я нашел в наборах данных:

  • Возраст. Средний возраст и рост пешеходов, которым чаще всего приходилось SQF, составляли 28 лет.

  • Месяц/день недели/час дня. В январь, февраль и март были отмечены самые высокие показатели SQF. Возможно, это связано с погодой, так как это более холодные периоды. Интересно и, возможно, неудивительно, что большинство остановок происходило по пятницам с 19:00 до 01:00.

  • Раса и демография. Больше всего SQF подвергались цветным и белым латиноамериканцам. Возможно, это можно отнести к демографическим характеристикам населения того места, где проводилась большая часть SQF.

  • Тип преступления и SQF. Тремя основными причинами SQF были подозрения в криминальном владении оружием (CPW), грабеже и краже со взломом.

  • Причина SQF и тип физической силы. Три основных случая применения полицией определенного вида физической силы к пешеходам: «Руки», «Наручники» и «Прижатие к стене».

  • Раса и вооруженность: была очень низкая корреляция между остановкой, вооруженным пешеходом или обнаружением контрабанды у пешеходов и расой и применением физической силы офицерами.

ОЦЕНКА И ЗАКЛЮЧЕНИЕ

Использование «Остановить, расспросить и обыскать» (SQF) в качестве стратегии снижения уровня преступности или сдерживания само по себе является потенциально отличным полицейским инструментом при правильном использовании, однако становится проблематичным, когда кажется, что он нацелен на определенные расовые группы в уникальная демография.

Данные SQF за 2012 год, которые легли в основу этого анализа и отчета, призваны внести свой вклад в продолжающийся диалог между правоохранительными органами и всеми заинтересованными сторонами о некоторых результатах программы, а также предоставить некоторые предложения относительно следующих шагов.

Например, результаты показывают, среди прочего, что примерно 84% остановок были совершены молодыми чернокожими и латиноамериканскими пешеходами, а определенные кластеры в Нью-Йорке, такие как Бруклин, оказались местами, где SQF проводилось больше всего. В отчете также показано, что основной причиной SQF является то, что полиция подозревает, что у пешехода есть оружие. См. полный отчет здесь

Я считаю, что эти выводы, наряду с множеством других соответствующих факторов и событий, заслуживают рассмотрения в более широком и продолжающемся диалоге о полицейской деятельности в целом.

Релевантные ссылки

Ссылки