Вы можете ознакомиться с более технической и практической версией этого блога в разделе Куала-Лумпур — Тенденции цен на недвижимость // Практическое руководство.
Код и решение для анализа этого поста в блоге можно найти на GitHub здесь.
Куала-Лумпур — шумный город, федеральная столица Малайзии. Город является центром экономического и делового развития Малайзии, а в его городском ландшафте много офисных небоскребов среди малоэтажных магазинов-офисов. Однако давайте посмотрим на жилую недвижимость, типы, площади и цены.
Я наткнулся на данные о ценах на недвижимость в Куала-Лумпуре на Kaggle. Посмотрев на данные, я сразу же решил проанализировать и найти несколько идей для города, в котором я сейчас живу :)
Наша цель?
В: Какое место в Куала-Лумпуре самое дорогое?
В: Где в Куала-Лумпуре можно найти большие дома для проживания?
В: Какие места в городе самые дорогие?
Данные
Я нашел данные по следующей ссылке ниже на Kaggle;
Эти данные предоставляют нам информацию о местоположении, ценах, типе, размере и меблировке недвижимости, среди прочего, например, о количестве парковок, ванных комнат и комнат.
Данные кажутся довольно последовательными и тщательно составленными. Однако в этом наборе данных есть несколько отсутствующих значений, особенно значений, связанных с ценообразованием.
Чаще всего мы не можем анализировать данные, в которых есть пропущенные значения. Отсутствующие значения нарушат процесс, вызовут ошибки и/или предоставят полностью вводящую в заблуждение информацию.
Чтобы завершить наш анализ, давайте очистим наши данные и подготовим наш набор данных для анализа.
Очистка и подготовка данных
Взгляните на данные, и я знал, что это будет сложной задачей :(, пропущенные значения, ошибки формата, типы данных и т. д.
Что нам нужно сделать, чтобы подготовить эти данные для нашего анализа, чтобы мы могли ответить на вопросы, которые мы задали себе выше!
В столбце Местоположения вы можете увидеть слово «Куала-Лумпур», используемое в каждой записи. Поскольку весь набор данных относится к Куала-Лумпуру, мы можем безопасно избавиться от этого повторяющегося слова из наших данных.
Кроме того, столбец Местоположения несовместим с заглавными буквами, а некоторые записи полностью написаны заглавными буквами, например, TAMAN MELATI, KLCC и т. д., поэтому мы преобразуем все данные в этом столбце в строчные строки.
Теперь столбец Комнаты довольно запутан, комнаты записаны в формате N+M, мы будем добавлять «N» к «M» и получать общее количество комнат для этого объекта.
Я не думаю, что данные Парковки и Ванные комнаты требуют какой-либо очистки данных, слава богу, эти столбцы имеют правильный формат и готовы к анализу.
Столбец Тип ресурса требует упрощения. Те же записи повторяются с дополнительными подробностями. Поскольку нам не нужна дополнительная информация, мы можем быстро и безопасно удалить эти детали и упростить столбец.
Теперь в столбце Размер представлены два отдельных значения: а) если недвижимость застроена или имеет земельный участок, б) размер недвижимости в квадратных футах.
Мы подготовим столбец Размер, разделив его на два отдельных столбца, т. е. чтобы четко показать построенный тип и размер свойства.
С ценой свойств удобнее работать, удалите знаки «RM» и запятые, и столбец цен готов к анализу.
Есть пропущенные значения, что с ними делать?
Хм, это обычная дилемма; мы сталкиваемся с данными с пропущенными значениями. Существует множество методик решения этой проблемы.
Мы могли бы взять «Среднее» или «Среднее» столбца и заполнить недостающие значения из этого значения, или мы могли бы вычислить «Медиану» или «Моду» для этой цели.
Однако мы просто собираемся УДАЛИТЬ строки с отсутствующими значениями. «Но не повлияет ли это на точность нашего набора данных?» — спросите вы!
Поскольку мы не собираемся развертывать машинное обучение или глубокие нейронные сети для этого сообщения в блоге, наш анализ должен быть статистически подобен меньшему подмножеству данных.
Итак, мы удалим строки, содержащие недостающие данные.
Наш анализ
Удалось ли нам найти достаточно анализа, чтобы ответить на наши вопросы в верхней части этого блога? Давайте разберемся
Какое место в Куала-Лумпуре самое дорогое?
Наш анализ показывает, что самыми дорогими местами в городе Куала-Лумпур являются Federal Hill, Country Heights Damansara и Taman Dutta.
10 лучших мест в Куала-Лумпуре составляют почти 49% всего рынка недвижимости в городе. Они указывают на перекос рынка недвижимости влево.
Где найти большие дома в городе?
Большие дома! У нас есть идеально подходящий столбец данных для этого анализа, встроенный_размер в квадратных футах. Давайте проанализируем, какие места повышают наиболее важные свойства в Куала-Лумпуре.
Jinjang был удивительно сильным соперником в нашем стремлении к большим объектам. Это требует дальнейшего изучения данных, и я бы еще раз посмотрел на них.
Однако появление Damansara, Setiawangsa, Federal Hill и Taman Dutta в топ-рейтинге неудивительно.
Мы можем легко сделать вывод, что недвижимость в Дамансаре, Федерал-Хилл и Таман-Дутта дорогая, но вы получаете большие дома и недвижимость.
Трудно позволить себе? Являются ли эти объекты самыми дорогими и сложными? Мы не знаем, еще нет. Давайте посмотрим, какие Локации больше всего влияют на кошельки горожан.
Самое дорогое место в городе?
Мы рассмотрим локации, которые стоят дорого, но не дают вам таких же больших земельных участков, как другие дорогие локации.
Нет сомнений в том, что KLCC (Башни-близнецы Малайзии) возглавляет список, за ним следуют KL Eco City, KL Sentral и Bukit Bintang. Эти места предлагают меньше площадей за копейки.
Вы заметили две вещи в приведенном выше анализе?
- Диаграмма не перекошена влево, поэтому цена за квадратный фут в городе следует хорошей и градиентной тенденции.
- Почти все топперы в нашем списке — это «коммерческие» районы, будь то офисные башни, торговые центры, туристические места и многолюдные магазины.
Вывод
Цены в Куала-Лумпуре, как правило, стабильны в разных районах, за исключением некоторых жилых районов, где вы можете найти большие дома, лучшую инфраструктуру и лучшие возможности для покупок.
Коммерческие площади в городе не указывают на эту тенденцию. Цена среди коммерческих объектов хорошо распределена по всему городу, начиная от очень дорогих районов, таких как «KLCC», до «Раванг» и «Гомбак».
Следующие шаги?
Заметив вышеуказанные тенденции, мы смогли найти много других интересных фактов из городских данных, над которыми мы работали. например ;
- Найдите самые дорогие номера в городе
- Найдите места, где вы должны остановиться в самых маленьких комнатах!
- Где найти самые дорогие парковки?
и многое другое… Давайте добавим в комментариях, что вы нашли в этом датасете!