Более глубокий взгляд на облагораживание переписных участков с помощью кластерной классификации

Я родился и вырос в Нью-Йорке. В детстве я видел, как Гарлем в середине-конце 90-х превратился из района подавляющего меньшинства в благоустроенный рай из коричневого камня, которым он является сегодня. Были опубликованы научные статьи об изменениях в кварталах, и одна из недавних работ Ellen & Ding (2016) была эталоном, с которым я сравнил свою модель.

Используя подход науки о данных, я хотел задать очень конкретный вопрос:

Может ли алгоритм машинного обучения обнаружить джентрификацию?

Самая важная особенность этого проекта, которую необходимо понять, - это обучение без учителя. Это означает, что целевая переменная не была предоставлена ​​для модели. Таким образом, вместо того, чтобы предсказывать уже решенный результат, модель будет брать данные и делать собственные выводы. В конце я сравню это с выводами из научной статьи, на которую я ссылался.

Данные

Лучшим набором данных для этого типа работы были данные переписи населения США, и в результате некоторых исследований я нашел исследование разнообразия, проведенное в Университете Брауна (база данных продольных трактов - LTDB). В рамках исследования была собрана и обобщена информация переписи населения и обследования американского сообщества (ACS) за 2000, 2010 и 2012 годы.

Типы данных были естественным образом разделены на два разных набора данных. Общие демографические данные были встроены в саму перепись. Это включало возраст, размер семьи, расу и этническую принадлежность. Данные опроса включали гораздо более подробную информацию - иммиграционный статус, виды занятости и доход. Все эти функции включены в каждый переписной участок в четырех районах. Комбинация этих двух наборов данных была бы наиболее продуктивной с точки зрения определения джентрификации. Проект продолжился следующим образом.

  1. Очистка и предварительная обработка данных
  2. Исследование данных
  3. Создание кластера
  4. Качественное сравнение с Ellen & Ding (2016)
  5. Заключение и дальнейшая работа

1. Очистка и предварительная обработка данных

Первым шагом была обработка данных переписи населения США 2000 года, а первым в списке шагов была изоляция города Нью-Йорка. Я сделал это с помощью вспомогательной функции, которую создал, чтобы мне не нужно было помещать определение функции в код. Чтобы полностью понять этот код, вам необходимо знать, что Статен-Айленд не был включен в это исследование. Его отличительные характеристики с точки зрения расового состава и плотности населения сделали его особенным в группе.

Таким образом, с помощью быстрой функции я смог изолировать четыре района Нью-Йорка от всех округов Соединенных Штатов. Затем следовали проценты от общей численности населения, которых я хотел.

Затем я разделил данные на две категории: данные люди и данные жилье. Люди могут включать культурное наследие (например, русское, пуэрториканское, ирландское происхождение), в то время как жилье сообщит нам подробную информацию о зданиях и домах (например, аренда против собственного, многоквартирного дома против односемейных домов. ).

Поскольку джентрификация связана с изменениями, общий подсчет мало что может дать модели. Мне нужно было получить более четкое представление об этих преобразованиях окрестностей, а это означало выяснить, как изменились соотношения. Мне нужно было найти процентные изменения, а для этого мне нужно было найти проценты от даты начала.

Используя в качестве знаменателя общую численность населения, я быстро создал функцию для вычисления того, какая часть населения соответствует этим подмножествам. Это относилось как к подмножествам жилья, так и к людям. Это поможет ответить на некоторые из более конкретных вопросов.

Какой процент населения был белым? Афроамериканец? Сколько людей владели своими домами? Каков был процент "синих воротничков" и "белых воротничков"? Безработные? Сначала мне пришлось составить эти списки вручную. Все они имели уникальные имена, поэтому мне пришлось их отсортировать, но как только я это сделал, я сохранил имена столбцов в виде списков.

Приведенная ниже функция позволила мне взять проценты, а также отбросить теперь ненужные столбцы полного счета.

Этот процесс был повторен для данных переписи 2010 года. Затем два набора данных были объединены. Затем наступила самая важная часть, на которой будет основан весь проект - расчет процентного изменения.

Увеличение или уменьшение процента населения будет определяющим фактором в модели обучения без учителя. Это было сочетание двух функций. Первый извлек столбцы из каждого набора данных 2000 и 2010 годов и сохранил их в виде заархивированного файла. Второй берет процентное изменение и сохраняет его как отдельный столбец.

Это может привести к некоторым значениям бесконечности, но это можно легко заменить.

Оба эти процесса повторяются для выборки данных. В конце этой долгой очистки и предварительной обработки данных у нас есть фрейм данных, который содержит процентные изменения каждого переписного участка в Нью-Йорке. Затем мы перешли к разведочной части проекта.

2. Исследование данных

Для исследования данных я использовал комбинацию Python Seaborn Package и Tableau. Для частей Python я включу сопроводительный код.

Есть несколько показателей, по которым вы можете измерить джентрификацию. Изменения в составе белого или небелого населения и изменения среднего дохода. Мое исследование было сосредоточено на этих вещах.

Моим первым шагом было проверить дистрибутив.

Есть несколько вещей, которые вы можете вынести из этого графика. Во-первых, это то, что количество участков переписи с положительными изменениями небелого населения выше, чем у белого населения. Во-вторых, вы можете видеть, что в то время как на большем количестве переписных участков наблюдается рост небелого населения, на участках с увеличением белого населения наблюдается огромный рост.

Я также хотел работать с пространственными данными, поэтому сделал следующие графики на Tableau. Первый демонстрирует переписной участок с наибольшим приростом белого населения.

Бедфорд-Стуйвесант занимает первые четыре места с увеличением количества белого населения в этом районе более чем на 2000%. Все темно-синие пятна - в Бедфорд-Стуйвесант. Последний показатель, который мы отметили, - это изменение дохода. Лучше всего это продемонстрировать на карте Манхэттена.

Центральный Гарлем находится внутри красного круга. По данным переписи, средний доход на семью вырос более чем на 250%. Это невероятная сумма, и ее нельзя учесть повышением заработной платы. Это можно объяснить только тем, что сюда переехала новая группа людей с гораздо большим достатком, чем те, которые жили там раньше.

3. Создание кластера

Следующим шагом в этом процессе было создание кластеров. Кластеризация - это метод неконтролируемой классификации, который рассматривает все данные и объединяет их в группы на основе сходства их характеристик. В двухмерном пространстве модель центроида выглядит так.

Однако для моего набора данных мы рассматриваем более 100+ функций. Это очень сложно визуализировать, и кластеру так же сложно выполнять свою работу. Использование всех функций означало попытку создать кластеры в 108-мерном пространстве. В тот момент расстояние между точками в кластере ничего не значило. Поэтому мне пришлось использовать подмножества.

Я пробовал три отдельные модели, каждая с тремя разными наборами функций. Первым из них была иерархическая агломеративная кластеризация (HAC), KMeans и анализ главных компонентов (PCA). Подробное объяснение кластеризации можно найти в этом блоге о кластеризации от Analytics Vidhya. Лучшая модель была выбрана на основе ее баллов по силуэту. При этом учитывается его перекос и инерция. В основном, насколько плотно были скопления и как далеко они были друг от друга.

Окончательные результаты завершились PCA с определенным подмножеством модели с лучшим баллом по силуэту.

PCA, использующий второе подмножество, имел лучший показатель Silhouette Score и был выбран в качестве окончательной модели. Вот несколько пространственных графиков этих результатов.

Кластер не мог делать предположений о будущем статусе переписного участка. Все данные касались изменений населения, но не включали ничего об исходном состоянии данных переписи 2000 года. Это означало, что кластер знал только о конечном состоянии переписного участка и не делал предположений о том, как будет выглядеть район, который может оказаться уязвимым для джентрификации.

В модели кластера большая часть северного Бруклина пострадала от джентрификации. Это результат законов о пересечении зон и быстрого развития, которое Бруклин наблюдал за это время.

В соответствии с неконтролируемым обучением, модель не присваивает кластерам ярлыки. Скорее им присваиваются групповые номера. Только во время анализа я присваиваю названия каждому кластеру. Самый простой - это нулевые значения, которые присваиваются таким местам, как парки, крупные коммерческие районы с небольшим количеством жителей или тюрьмы (в случае острова Райкера). Затем были «Стабильные» трактаты. Полученное здесь обозначение не указывает окончательно, каков уровень джентрификации в 2010 году, а скорее указывает на то, что не произошло значительных изменений ни в одной из групп населения или в уровнях доходов. Ярлык «Смесь» сложнее всего для понимания. Поскольку модель не рассматривает возможности, я не могу классифицировать это как участки, уязвимые для джентрификации. Эта группа требовала изучения их размещения в городе. Мои знания в предметной области намного сильнее для Манхэттена, чем для Бруклина, поэтому я буду использовать этот кластерный график, чтобы сделать следующий вывод.

Обратите внимание на темно-серые области на карте Манхэттена выше. К ним относятся места в Верхнем Ист-Сайде, Мидтауне и Бэттери-Парк-Сити. Как группа, нет особых причин, по которым они не попали бы в группу «Стабильная». Тем не менее, мы должны иметь в виду, что временные рамки, с которыми работает модель, - с 2000 по 2010 год. В сентябре 2001 года Бэттери-Парк-Сити стал непригодным для проживания из-за пожаров во Всемирном торговом центре. Таким образом, район превратился из очень престижного района в почти безлюдный. Другие районы, такие как Верхний Ист-Сайд и Мидтаун, по-видимому, неправильно классифицированы. Вот почему был применен ярлык «Mixture». Он действовал как ловушка для трактатов, которые не попадали ни в одну из других категорий.

Кластер «Gentrifying» показывает резкую картину. Появляются районы с внезапным увеличением доходов и белым населением или значительным сокращением небелого населения. Нижний Ист-Сайд и Гарлем - очевидные классификации. Однако «Адская кухня» удивила. Хотя он и не был известен как район исторического меньшинства, он был в основном коммерческим, пока не началось серьезное строительство.

4. Качественное сравнение с Ellen & Ding (2016)

Следующим шагом было качественное рассмотрение сходства и различий между классификацией модели и метриками, установленными в Ellen & Ding.

В модели выше вы можете увидеть, насколько модель кластеризации определила переписной участок как джентрифицированный. Северный Бруклин, включая Вильямсбург и Бедфорд-Стуйвесант, почти все учтены здесь. Но на карте сгенерированных метрик этой группы намного меньше.

В Манхэттене заголовок - это участки переписи, которые Эллен и Динг не определили как джентрифицированные, как это сделал кластер. Хотя они согласились в отношении большей части одних и тех же районов, кластерная модель также определила северный Манхэттен - Вашингтон-Хайтс и Инвуд как джентрифицированный.

5. Заключение и дальнейшая работа

Имея в виду, что, хотя эти данные относятся к периоду с 2000 по 2010 год, с некоторой информацией, полученной из ACS 2012 года, результаты довольно ясны. В Нью-Йорке произошла значительная джентрификация: в Бруклине было облагорожено более 17% переписных участков. В 2020 году Бруклин все еще находится в процессе джентрификации, и результаты пока не ясны.

Следующие шаги этого проекта будут включать работу с данными переписи населения за 2020 год и самыми последними данными ACS. Будет интересно посмотреть, как развивались другие районы и есть ли новые горячие точки для джентрификации.

Свяжитесь со мной

Если вы хотите больше поговорить об этом проекте или пообщаться, вы можете найти меня в LinkedIn. Или, если вам нужно объяснение проекта с подробными уценками, посмотрите репозиторий Github.

Источники

  1. LTDB - База данных продольных трактов, Университет Брауна
  2. Эллен и Дин Расширение нашего понимания джентрификации (2016)
  3. Analytics Vidhya - Введение в кластеризацию и различные методы кластеризации