Вы можете ознакомиться с более технической и практической версией этого блога в разделе Куала-Лумпур — Тенденции цен на недвижимость // Практическое руководство.

Код и решение для анализа этого поста в блоге можно найти на GitHub здесь.

Куала-Лумпур — шумный город, федеральная столица Малайзии. Город является центром экономического и делового развития Малайзии, а в его городском ландшафте много офисных небоскребов среди малоэтажных магазинов-офисов. Однако давайте посмотрим на жилую недвижимость, типы, площади и цены.

Я наткнулся на данные о ценах на недвижимость в Куала-Лумпуре на Kaggle. Посмотрев на данные, я сразу же решил проанализировать и найти несколько идей для города, в котором я сейчас живу :)

Наша цель?

В: Какое место в Куала-Лумпуре самое дорогое?

В: Где в Куала-Лумпуре можно найти большие дома для проживания?

В: Какие места в городе самые дорогие?

Данные

Я нашел данные по следующей ссылке ниже на Kaggle;



Эти данные предоставляют нам информацию о местоположении, ценах, типе, размере и меблировке недвижимости, среди прочего, например, о количестве парковок, ванных комнат и комнат.

Данные кажутся довольно последовательными и тщательно составленными. Однако в этом наборе данных есть несколько отсутствующих значений, особенно значений, связанных с ценообразованием.

Чаще всего мы не можем анализировать данные, в которых есть пропущенные значения. Отсутствующие значения нарушат процесс, вызовут ошибки и/или предоставят полностью вводящую в заблуждение информацию.

Чтобы завершить наш анализ, давайте очистим наши данные и подготовим наш набор данных для анализа.

Очистка и подготовка данных

Взгляните на данные, и я знал, что это будет сложной задачей :(, пропущенные значения, ошибки формата, типы данных и т. д.

Что нам нужно сделать, чтобы подготовить эти данные для нашего анализа, чтобы мы могли ответить на вопросы, которые мы задали себе выше!

В столбце Местоположения вы можете увидеть слово «Куала-Лумпур», используемое в каждой записи. Поскольку весь набор данных относится к Куала-Лумпуру, мы можем безопасно избавиться от этого повторяющегося слова из наших данных.

Кроме того, столбец Местоположения несовместим с заглавными буквами, а некоторые записи полностью написаны заглавными буквами, например, TAMAN MELATI, KLCC и т. д., поэтому мы преобразуем все данные в этом столбце в строчные строки.

Теперь столбец Комнаты довольно запутан, комнаты записаны в формате N+M, мы будем добавлять «N» к «M» и получать общее количество комнат для этого объекта.

Я не думаю, что данные Парковки и Ванные комнаты требуют какой-либо очистки данных, слава богу, эти столбцы имеют правильный формат и готовы к анализу.

Столбец Тип ресурса требует упрощения. Те же записи повторяются с дополнительными подробностями. Поскольку нам не нужна дополнительная информация, мы можем быстро и безопасно удалить эти детали и упростить столбец.

Теперь в столбце Размер представлены два отдельных значения: а) если недвижимость застроена или имеет земельный участок, б) размер недвижимости в квадратных футах.

Мы подготовим столбец Размер, разделив его на два отдельных столбца, т. е. чтобы четко показать построенный тип и размер свойства.

С ценой свойств удобнее работать, удалите знаки «RM» и запятые, и столбец цен готов к анализу.

Есть пропущенные значения, что с ними делать?

Хм, это обычная дилемма; мы сталкиваемся с данными с пропущенными значениями. Существует множество методик решения этой проблемы.

Мы могли бы взять «Среднее» или «Среднее» столбца и заполнить недостающие значения из этого значения, или мы могли бы вычислить «Медиану» или «Моду» для этой цели.

Однако мы просто собираемся УДАЛИТЬ строки с отсутствующими значениями. «Но не повлияет ли это на точность нашего набора данных?» — спросите вы!

Поскольку мы не собираемся развертывать машинное обучение или глубокие нейронные сети для этого сообщения в блоге, наш анализ должен быть статистически подобен меньшему подмножеству данных.

Итак, мы удалим строки, содержащие недостающие данные.

Наш анализ

Удалось ли нам найти достаточно анализа, чтобы ответить на наши вопросы в верхней части этого блога? Давайте разберемся

Какое место в Куала-Лумпуре самое дорогое?

Наш анализ показывает, что самыми дорогими местами в городе Куала-Лумпур являются Federal Hill, Country Heights Damansara и Taman Dutta.

10 лучших мест в Куала-Лумпуре составляют почти 49% всего рынка недвижимости в городе. Они указывают на перекос рынка недвижимости влево.

Где найти большие дома в городе?

Большие дома! У нас есть идеально подходящий столбец данных для этого анализа, встроенный_размер в квадратных футах. Давайте проанализируем, какие места повышают наиболее важные свойства в Куала-Лумпуре.

Jinjang был удивительно сильным соперником в нашем стремлении к большим объектам. Это требует дальнейшего изучения данных, и я бы еще раз посмотрел на них.

Однако появление Damansara, Setiawangsa, Federal Hill и Taman Dutta в топ-рейтинге неудивительно.

Мы можем легко сделать вывод, что недвижимость в Дамансаре, Федерал-Хилл и Таман-Дутта дорогая, но вы получаете большие дома и недвижимость.

Трудно позволить себе? Являются ли эти объекты самыми дорогими и сложными? Мы не знаем, еще нет. Давайте посмотрим, какие Локации больше всего влияют на кошельки горожан.

Самое дорогое место в городе?

Мы рассмотрим локации, которые стоят дорого, но не дают вам таких же больших земельных участков, как другие дорогие локации.

Нет сомнений в том, что KLCC (Башни-близнецы Малайзии) возглавляет список, за ним следуют KL Eco City, KL Sentral и Bukit Bintang. Эти места предлагают меньше площадей за копейки.

Вы заметили две вещи в приведенном выше анализе?

  • Диаграмма не перекошена влево, поэтому цена за квадратный фут в городе следует хорошей и градиентной тенденции.
  • Почти все топперы в нашем списке — это «коммерческие» районы, будь то офисные башни, торговые центры, туристические места и многолюдные магазины.

Вывод

Цены в Куала-Лумпуре, как правило, стабильны в разных районах, за исключением некоторых жилых районов, где вы можете найти большие дома, лучшую инфраструктуру и лучшие возможности для покупок.

Коммерческие площади в городе не указывают на эту тенденцию. Цена среди коммерческих объектов хорошо распределена по всему городу, начиная от очень дорогих районов, таких как «KLCC», до «Раванг» и «Гомбак».

Следующие шаги?

Заметив вышеуказанные тенденции, мы смогли найти много других интересных фактов из городских данных, над которыми мы работали. например ;

  • Найдите самые дорогие номера в городе
  • Найдите места, где вы должны остановиться в самых маленьких комнатах!
  • Где найти самые дорогие парковки?

и многое другое… Давайте добавим в комментариях, что вы нашли в этом датасете!