Магистерская диссертация по сочетанию машинного обучения и эконометрического моделирования. Можем ли мы оптимизировать точность при сохранении интерпретируемости?

Роль оценки имущества.

Оценка собственности играет важную роль во многих приложениях. Закон об оценке недвижимого имущества (Wet Waardering Onroerende Zaken, WOZ) требует ежегодной оценки имущества, чтобы использовать эту стоимость в качестве исходных данных для местных налогов на недвижимость и национальных подоходных налогов и налогов на богатство. Оценка имущества также важна для заявок на ипотеку и для измерения эффективности портфеля недвижимости.

Пока недвижимость не продана, мы не можем знать ее цену. А поскольку рынок недвижимости неликвиден, мы не можем просто использовать прошлые цены сделок. Следовательно, для этой задачи часто используются автоматизированные модели оценки, использующие статистические методы для оценки рыночной стоимости. Эти модели используют различные характеристики собственности для оценки ее рыночной цены. Помимо точности, важным фактором для этих моделей также является прозрачность: выходные данные должны быть полностью объяснимы для налогоплательщиков или сотрудников местных налоговых органов.

Сравнение автоматизированных подходов к оценке

В моем исследовании мы сравнили эффективность трех различных подходов к автоматизированной оценке.

  • Во-первых, это традиционный подход к эконометрическому моделированию, который в течение многих лет был доминирующим подходом при оценке домов. Преимущество моделей этого подхода, как правило, состоит в том, что они легко интерпретируются: соотношение между характеристиками и ценой указывается напрямую, а неопределенность в прогнозах может быть формально рассчитана. Модель, которую в настоящее время использует Ortec Finance, относится к этому семейству моделей: так называемая иерархическая модель тренда (HTM) [1] представляет собой модель в пространстве состояний, в которой в дополнение к неизменяющимся во времени отображениям характеристик различные стохастические тренды указываются для разных категории местоположения и типа дома для моделирования временного характера цен на жилье.
  • Второй подход — машинное обучение. А именно, мы оценили эффективность нейронных сетей (NN), случайных лесов (RF) и градиентного бустинга (GB) на этой задаче. Эти алгоритмы обычно достаточно точны; тем не менее, они представляют собой «черные ящики», поскольку сложность их внутренней механики делает невозможным установление прямых связей между входами и выходами.
  • В качестве третьего подхода мы экспериментировали с гибридной моделью, которая пытается объединить преимущества обоих подходов. В частности, мы предложили метод замены стационарной части HTM методом машинного обучения.

Мы обучили наши модели, используя данные о транзакциях в Нидерландах с 2009 по 2015 год, и спрогнозировали стоимость проданных домов в 2016 году. Показатели производительности средней абсолютной процентной ошибки (MAPE) для точности внутри и вне выборки приведены в таблице право. Hybrid-NN и Hybrid-RF соответствуют гибридным моделям, в которых алгоритмы NN и RF используются для замены неизменной во времени части HTM соответственно. Можно видеть, что модель Hybrid-NN получила самую высокую точность вне выборки. Важно отметить, что совместное использование HTM и NN обеспечивает большую точность, чем использование любого из них по отдельности; то же самое верно и для Hybrid-RF.

Как упоминалось ранее, для этой задачи прозрачность так же важна, как и точность. HTM намного лучше, чем модели черного ящика NN, RF и GB с точки зрения интерпретируемости. Некоторые идеи можно получить из моделей черного ящика, таких как метрики переменной важности или графики частичной зависимости, но при этом теряется прямая связь входных данных с выходными. С помощью гибридного метода мы стремились найти золотую середину между полярными противоположностями: он теряет прямую интерпретируемость связи между характеристиками и ценой, но все еще сохраняет хорошо определенные структуры тренда HTM.

Вывод

Подводя итоги, мы определили, что существует потенциал для включения подходов машинного обучения в модели оценки стоимости недвижимости. Возможности моделирования на основе данных, предоставляемые этими алгоритмами, могут повысить точность по сравнению с более традиционными эконометрическими моделями. Примечательно, что мы увидели, что использование гибридного подхода, в котором одновременно используются эконометрические методы и методы машинного обучения, обеспечивает высочайшую точность. Тем не менее, проблема интерпретируемости по-прежнему представляет собой ограничение. Если требуется полностью интерпретируемая модель, то лучшим вариантом может быть эконометрическая модель.

использованная литература

[1] Марк Франке. Иерархическая модель тренда. Методы массовой оценки. Международная перспектива для оценщиков недвижимости, стр. 164–180, 2008 г.

[2] Маартен-Ян Эверс. Машинное обучение — ультимативная модель WOZ-waardings (только на голландском языке).

Автор: Джихан
Примечание редактора: 18 июля Джихан с отличием окончил Университет Эразма в Роттердаме.