Введение

Эта статья основана на моем последнем проекте курса IBM Data Science Professional.

Мумбаи, город мечты, также является финансовой столицей Индии. Кто пробовал искать дома в городе, тот знает, насколько это сложная и мучительная задача. Это также верно для людей, которые хотят использовать различные предпринимательские возможности на уже насыщенных рынках города. Наша цель в этой статье — проанализировать и сгруппировать различные районы города Мумбаи на основе множества факторов.

Это будет полезно для всех и каждого, кто ищет совместимые районы при поиске новых домов, а также окажется полезным для тех, кто хочет инвестировать в них или развивать в них новый бизнес.

Источники данных

Мы собираем большую часть наших данных с www.makaan.com. Этот веб-сайт содержит список различных районов Мумбаи, а также тенденции цен на аренду недвижимости в них. Мы используем данные по объектам 2BHK, так как они наиболее популярны среди арендаторов, а также потому, что на веб-сайте содержится максимальное количество данных в этой категории.

Другие источники данных включают API Foursquare, который используется для поиска наиболее распространенных мест в каждом районе, и HERE API, который помогает нам находить услуги и удобства, доступные в этом районе.

Методология

Начнем с очистки данных с вышеупомянутого веб-сайта и удаления всех районов с отсутствующими данными. Используя библиотеку геокодирования (Nominatim), мы узнаем координаты всех окрестностей и добавляем их в наш набор данных.

Теперь, когда мы узнали все окрестности, которые будут проанализированы, мы нанесем их на карту города Мумбаи, используя их координаты. Для этой цели используется библиотека Python Folium.

Следующая задача — выяснить наиболее распространенные места в каждом районе. Для этого мы используем API Foursquare. Используя этот API, мы находим различные места и их категории в радиусе 1 километра от каждого района.

После быстрого кодирования категорий мест и определения их средних значений для каждого района мы можем легко понять категории мест, которые часто встречаются в районе. Наш набор данных на данный момент выглядит следующим образом:

Сортировка значений всех столбцов категорий в порядке убывания для каждого района может легко дать нам первую десятку наиболее распространенных категорий мест проведения в каждом районе.

Теперь мы используем удобную функцию запроса произвольного текста HERE API для поиска объектов по нашему выбору в каждом районе в радиусе 1 километра. Поиск был ограничен 100 результатами на объект. Некоторые из удобств, которые мы рассмотрели, включают больницы, школы и службы экстренной помощи. Эти данные в сочетании с набором данных отсортированных мест и данными о средней арендной плате дают нам набор данных, который был бы чрезвычайно полезен для анализа наших окончательных результатов, т. е. когда мы получаем метки наших кластеров.

Но для целей кластеризации мы используем набор данных о местах проведения в сочетании с данными об удобствах, полученными с помощью HERE API. Данные об удобствах объединяются только после их стандартизации.

Мы удаляем столбец «Окрестности» из набора данных и завершаем процедуру подготовки данных.

Для кластеризации мы используем алгоритм кластеризации K-средних, который требует от нас определить количество кластеров (k), на которые мы хотим разделить наши данные. Чтобы узнать идеальное значение k, мы используем метод локтя. Это включает в себя построение значений показателей искажения в зависимости от различных значений k. локоть кривой дает нам идеальное значение k. Библиотека Yellowbrick Python используется для простой визуализации этого.

Как видно на графике, идеальное значение k равно 7. Поэтому мы подгоняем наши данные, используя кластеризацию K-средних с k = 7. Полученные метки кластеров добавляются в наш окончательный набор данных исследования.

Мы завершили кластеризацию районов Мумбаи. Пришло время просмотреть результаты.

Результаты и обсуждения

Нанося результаты нашей процедуры кластеризации на карту города, мы получаем следующий результат.

Теперь можно выяснить отличительные свойства каждого района и различные характеристики, которые делают их похожими или непохожими друг на друга.

Для каждого кластера мы проверяем составляющие районы, наносим их на карту, а также строим ряд гистограмм, представляющих 3 лучших места в каждом из столбцов наиболее распространенных мест окончательного набора данных исследования. Это не только помогло бы нам найти сходство между преобладающими предприятиями в кластере, но также помогло бы предприятиям, а также арендаторам понять свое местонахождение. Наблюдения для первого кластера приведены ниже.

Изучив каждый кластер по отдельности, мы также можем сопоставить удобства, предлагаемые различными кластерами, чтобы обеспечить индивидуальный выбор охотников за жильем при принятии решения.

Это делается путем сравнения среднего значения каждого удобства в каждом кластере. Ниже приведены результаты сравнения в отделе аренды.

Полный анализ по всем кластерам и объектам можно найти здесь.

Выводы

Из приведенного выше исследовательского анализа можно сделать ряд выводов.

Например, было обнаружено, что большее количество удобств не обязательно приводит к более высокой арендной плате за жилье. В большинстве случаев районы с видом на море были намного популярнее и дороже, хотя в них было меньше услуг.

Все кластеры полностью насыщены торговыми объектами, кроме кластера 5. Поэтому он может показаться выгодным местом для перспективных торговых комплексов.

Большое количество школ и больниц расположено в определенных кластерах, тогда как в других районах их, похоже, не хватает. Индийские рестораны разбросаны по всему Мумбаи и являются наиболее распространенными местами во всех кластерах.

В конце концов, все сводится к предпочтениям и выбору человека. Используя приведенные выше исследования, можно интерпретировать результаты в соответствии со своими потребностями и найти наилучшие возможные решения для своей ситуации.

Полный код и анализ представлен здесь.