Наверное, каждый тайваньец знает о необоснованно дорогих ценах на жилье на Тайване. Этому есть несколько объяснений, таких как политика, жадность, плотность населения и т. д. Я бы оставил эти темы в другом месте, так как мне нечего делать, чтобы изменить это.

Но давайте поговорим на какую-нибудь интересную тему, например, как на самом деле выглядит цена на жилье на Тайване? Что является важным фактором в цене дома? Можете ли вы действительно построить модель, которая на 100% предскажет цену дома?

К счастью, мы нашли этот конкурс в Интернете:

h«ttps://tbrain.trendmicro.com.tw/Competitions/Details/»

Конкурс предоставляет 60 000 обучающих данных и 10 000 тестовых данных. Всего около 70000 данных. Подумайте о том, что общая численность населения Тайваня составляет всего около 23 миллионов человек, этот набор данных определенно стоит изучить!

Вас не волнует цена дома на Тайване!?… но, может быть, в Тайбэе!?

На самом деле, некоторые детали, такие как широта и долгота, были тайно преобразованы организатором, что еще больше усложняет ситуацию.

Тем не менее, нам так любопытно географическое распределение наших данных, что мы также попробовали некоторые секретные преобразования, чтобы расшифровать фактическую широту и долготу. Я бы не сказал, что у меня все эти точки на 100% расположены там, где они принадлежат, но, по крайней мере, мы знаем из графика, что эти записи о ценах на жилье были в основном собраны из трех мегаполисов, включая Тайбэй, Синьчжу и Тайчжун.

Скажи мне, как дорого стоит дом! Ну… вы можете сказать по сюжету, что общая цена сильно искажена, поэтому маленький график, как показано ниже, выглядит ужасно. К счастью, логарифм общей цены имеет идеальное нормальное распределение (почти, не привередничайте…), что полезно как для визуализации, так и для дальнейшего анализа.

Вы не хотите знать ничего, кроме ключевого фактора цены дома! Скажи мне!Сейчас!

Хорошо, давайте выясним, у кого самая высокая корреляция с общей ценой.

Чтобы точнее предсказать результат. Мы решили преобразовать общую цену в цену за площадь по этой формуле: (общая_цена/площадь_здания). Судя по приведенному выше графику корреляции, результат на удивление хороший, общая корреляция увеличивается на 0,3 для каждой переменной.

Что ж… отвечает ли это на наш вопрос о том, какая переменная является ключевым фактором, влияющим на цену дома? С точки зрения линейной зависимости здесь мы находим некоторые ключевые факторы: «VII_10000», «III_10000», «IX_10000». Римские цифры обозначают различные виды зданий или сооружений. Например, это может быть больница, школа или ресторан. Число после римских цифр означает расстояние. В целом, эти переменные можно интерпретировать как определенное расстояние, сколько школ/ресторанов и т. д. вокруг. В отличие от домов в Соединенных Штатах, на дома в Тайване огромное влияние может оказать количество круглосуточных магазинов, а не фактическое качество дома. (На самом деле люди это знают, организатор даже не предоставил никакой информации о качестве дома, например, количество санузлов, материал полов и т. д.)

Конкурс определял «точность» как уровень ошибок менее 10%.

Частота ошибок: «(Реальная цена дома — Прогнозируемая цена дома)/Реальная цена дома»

После того, как коэффициент ошибок был установлен здесь, таблица лидеров просто подсчитала, сколько единиц было предсказано как «точное», чтобы определить окончательные результаты.

Мы начали прогнозировать три месяца назад и получили 3000 баллов из таблицы лидеров, что означает, что мы как минимум правильно предсказали около 1/3 набора данных тестирования. В течение трех месяцев мы изо всех сил пытались получить лучшую модель, сосредоточившись на работе с пропущенными значениями, преобразовании переменных, поиске скрытых факторов, кластеризации и настройке модели… и т. д.

Окончательные оценки нашей команды в конце составили около 6250, что означает, что 2/3 данных были предсказаны правильно. 62% много или мало? Это вопрос. 1-е место в таблице лидеров в конце получило 6300, что может указывать на то, что это предельный прогноз, который мы могли бы сделать для этого набора данных. (или нет). Однако я считаю, что у нас еще есть много возможностей для улучшения модели.

Я бы не стал слишком много рассказывать о деталях каждого шага здесь, так как не хочу, чтобы эта статья выглядела усложняющей, и это была бы совсем другая история. Но если вас интересуют подробности, пожалуйста, дайте мне знать, и у меня будет мотивация написать и поделиться тем, что мы сделали для этого проекта, чтобы получить итоговую 10-ю оценку в общественной таблице лидеров.