Варун Д. Н, Панос Ипейротис, Фостер Провост

[Спасибо командам Compass NYC_AI и CRM!]

Ранее мы писали о рекомендациях Compass о вероятных продажах, первом продукте в линейке предложений на базе искусственного интеллекта, которые помогают агентам по недвижимости систематически и эффективно развивать свой бизнес. Эти рекомендации Вероятные продажи (LTS) помогают агентам выстраивать свои социальные и профессиональные отношения.

В этом посте мы более подробно рассмотрим часть, посвященную искусственному интеллекту. Наша цель не в том, чтобы представить причудливую математику, лежащую в основе алгоритмов ИИ, а в описании часто упускаемых из виду деталей, связанных с созданием реального продукта ИИ, улучшающего бизнес. Многие из частей не являются тем, что обычно можно найти в опубликованных обсуждениях ИИ для бизнеса или даже в большинстве курсов по машинному обучению или науке о данных.

В первой половине этого поста рассматривается процесс науки о данных, описывается формулировка проблемы и более сложная, чем обычно, установка машинного обучения (ML). Затем мы представляем наш первоначальный взгляд на оценку, которая выходит за рамки оценок, которые мы видим в классах машинного обучения (подробнее об этом в будущей публикации).

Во второй половине этого поста мы показываем несколько примеров реальных прогнозов LTS для домов и исследуем, почему эти дома, вероятно, будут продаваться, что дает представление о том, «как думает ИИ» и, в частности, , показывает существенную нелинейность изученной модели.

Машинное обучение для оценки вероятности продажи: формулировка проблемы

Мы собираемся поговорить о «контролируемом» машинном обучении, что означает (используя жаргон машинного обучения), что мы будем использовать экземпляры домов, которые помечены, то есть мы знаем, были ли они проданы или нет. Мы будем использовать эти помеченные данные на этапе машинного обучения для создания прогнозной модели вероятности продажи (LTS), которая затем будет использоваться для оценки вероятности того, что текущий дом скоро будет продан.

Чтобы реализовать решение с контролируемым машинным обучением для рекомендаций LTS, мы следовали довольно стандартному процессу. Первые шаги в процессе сосредоточены на самой важной части: точной формулировке проблемы.

Определите целевую переменную: будет ли дом продаваться скоро (или нет)

Что значит продать дом? Ключевым моментом будет наличие данных о доме в определенный момент времени. Для этого конкретного момента времени мы можем спросить, будет ли дом продан в какой-то будущий период, скажем, в следующие 12 месяцев. Это будет основная истина для нашей «целевой переменной».

Конечно, если бы мы прогнозировали сегодня вероятность продажи дома, мы можем не знать достоверного значения целевой переменной до этого момента в следующем году. Это усложняет создание помеченных обучающих данных и контрастирует со многими приложениями машинного обучения, о которых мы читаем, где мы знаем фактическое значение целевой переменной очень скоро после того, как делаем прогнозы. Поскольку нам нужно окно в двенадцать месяцев, чтобы определить, был ли дом продан (не продан), мы обучаем наших моделей, используя некоторое (прошлое) временное окно. В частности, мы делаем вид, что находимся в прошлом (скажем, 1 января 2019 г.), и маркируем как положительные примеры все дома, проданные в течение последующих 12 месяцев. Все остальные дома помечены как отрицательные.

Почему 12 месяцев? В сфере недвижимости наблюдается значительная сезонность продаж. Наличие 12-месячного окна позволяет нам избежать этого затруднения на ранних этапах моделирования. 12-месячное окно также имеет смысл в контексте нашего конкретного бизнес-приложения. Как описано ранее, при предоставлении рекомендаций LTS в системе Compass Customer Relationship Management (CRM): Цель наших рекомендаций по вероятным продажам - помочь агентам Compass систематически взаимодействовать с конкретными контактами: обеспечивать как руководство, так и дисциплину . Рекомендации сосредоточены на небольшом количестве соединений, которые, скорее всего, принесут бизнес в ближайшее время. Продажа в течение следующего года охватывает как домовладельцев, готовых продать сейчас , так и тех, кто будет готов продать в несколько месяцев - после этого наши агенты хотели бы быть в центре внимания.

Определите особенности: Что соотносится с продажей домов в ближайшее время?

Определение нашей целевой переменной - это только первый шаг в формулировке задачи машинного обучения (и вы, поклонники машинного обучения, знаете, что формулировка задачи является итеративной: возвращение к переформулировке по мере того, как мы узнаем больше, является стандартной рабочей процедурой).

Затем мы спрашиваем: как именно мы собираемся сформулировать данные о доме, чтобы они позволяли прогнозировать продажи в следующие 12 месяцев? На жаргоне машинного обучения это «разработка функций». «Характеристики» - это точки данных в доме, которые алгоритмы будут использовать для своих прогнозов.

Другие составили каталог основных движущих сил продажи домов. В нашем сообщении в блоге, в котором представлены наши рекомендации по LTS представлены некоторые общие категории функций, которые учитывает наше моделирование:

Вот неполный список факторов, которые в настоящее время учитываются при моделировании вероятного продавца (мы постоянно добавляем новые функции):

  • Подробная информация об объекте (спальни, ванные комнаты, метраж и т. д.)
  • Время с последней продажи и частота прошлых транзакций для собственности
  • Повышение ценности жилья; стоимость дома по сравнению с другими соседями
  • Статус ипотеки и предполагаемый капитал дома
  • Данные о перемещении людей (процент владельцев, арендаторов, частота их переезда)

Как перейти от этих высокоуровневых факторов к конкретным полезным функциям?

Разве нам не нужно создавать функции, отражающие движущие силы продаж домов? Разработка характеристик зависит от двух вещей: (1) понимания основного моделируемого явления - почему домовладельцы продают, и (2) понимание того, какие данные могут быть получены, которые могут коррелировать с будущими продажами. Обратите внимание, что мы использовали термин «коррелировать», а не «причины» продаж. Для прогнозирования, хотя мы действительно хотим сделать все возможное, чтобы понять причинные факторы продаж и разработать функции, основанные на этом причинном понимании, нет необходимости фиксировать причинно-следственную связь в нашей модели. Например, домовладелец, переросший дом, может быть одной из причинных движущих сил продаж. Однако мы не используем данные о составе семьи, поэтому мы не узнаем, что домовладелец перерос дом. С другой стороны, домовладелец, проживший в стартовом доме в течение пяти лет, может сильно коррелировать со значительным увеличением вероятности продажи, хотя для многих домовладельцев простой факт нахождения в доме не является причинным фактором желания или необходимости продавать. Разница здесь невелика, но она является основой успешного машинного обучения, особенно когда данные о причинных факторах недоступны или не наблюдаются. Ниже, в примерах, показывающих, что наша модель использует для прогнозирования высокой вероятности продажи, мы можем увидеть это в действии.

Но разве глубокое обучение не уничтожило разработку функций? Поскольку «глубокое обучение» становится все более популярным, некоторые люди склонны думать, что «разработка функций мертва». Это неправда, за исключением ограниченных настроек. Глубокое обучение действительно позволяет изучать сложные комбинации необработанных функций, которые у нас уже есть в наших данных. Для задач, в которых вся необходимая информация включена в необработанные данные (например, «обнаружение объектов на заданном изображении»), с достаточным количеством обучающих данных, глубокое обучение действительно может изучать представления, которые намного лучше, чем ручное -работанные функции. Однако для многих задач проектирование функций также включает моделирование релевантного контекста для конкретной области, получение правильных данных и включение знаний в области в формулировку проблемы, что особенно важно, когда у нас нет большого количества обучающих данных. Для моделирования LTS проектирование функций включает в себя поиск источников данных, которые предоставляют информацию об основных факторах продажи домов, и включение этих источников в наши данные обучения и логических выводов.

В отдельной записи блога мы подробно объясним (причинную) «генеративную» модель фундаментальных влияний на вероятность продажи дома и взаимосвязь между этой генеративной моделью и разработкой функций для машинного обучения.

Подробнее о тренировочной схеме: формулировка временной задержки

Обратите внимание, что стандартная перекрестная проверка или другие «типичные» методологии для оценки задержки не очень хорошо подходят для этой проблемы, потому что здесь целевая метка не реализуется в течение года после того, как прогнозы были сделаны - но для тестирования функции должны быть рассчитаны до начала оценочного периода. Конечно, значения функций для обучения должны быть рассчитаны в начале периода обучения; значения функций для тестирования должны быть рассчитаны в начале периода тестирования. Кроме того, на практике модели будут изучаться на основе продаж в течение одного года, а затем прогнозировать продажи в следующем, а в машинном обучении, как правило, лучше всего для тестирования имитировать использование как можно точнее.

Рис. 1. Временные отношения между периодами обучения, периодами тестирования и периодами использования (вывода).

Поговорим об обучении и тестировании. Наш набор тестов для каждого учебного года использует в качестве цели прогнозирования, будет ли дом продан в год, следующий за годом обучения. Чтобы протестировать до 2020 года, мы оцениваем качество модели 2018 года, исследуя, насколько хорошо она может предсказать, будет ли недвижимость продана в 2019 году. В частности, характеристики были рассчитаны для обучения, как если бы дата была в январе. 1 января 2018 г., а целью обучения является продажа дома в течение 2018 г. Для тестирования мы вычисляем значения характеристик, как если бы дата была 1 января 2019 г., и прогнозируем, состоится ли продажа. в 2019 году.

Для фактического применения (использования) в 2020 году мы переобучаем модель на данных 2019 года, а затем пересчитываем функции для использования в 2020 году.

За фигурой скрывается еще одно серьезное усложнение. В разных географических регионах поведение продавцов дома сильно различается. Например, даже базовая ставка продаж в крупных регионах (например, Нью-Йорк против Сан-Франциско) может отличаться в два раза. Теоретически при наличии достаточного количества данных для обучения и включения характеристик географической области машинное обучение могло бы изучить эти различия. Однако вместо того, чтобы доверять ML, мы разделяем моделирование на несколько десятков различных географических областей и изучаем модели отдельно для каждого региона. Таким образом, существует несколько десятков копий процесса обучения, изображенного на рисунке 1. Это станет критически важным, когда мы обсудим оценку и сравнение моделей, а именно:

(1) Не бывает «модели»; их несколько десятков, по одному на географический регион

2) Одна «версия» модели или одна процедура обучения, скорее всего, не будут работать лучше во всех десятках регионов.

Подробнее об этом позже.

Может ли ML улавливать важные сигналы о LTS, чтобы быть вообще полезным?

Проекты машинного обучения имеют значительно более высокую «научную неопределенность», чем большинство других неисследовательских ИТ-проектов, которыми компании обычно занимаются. Мы не можем с уверенностью сказать, что достигнем уровня точности прогнозов, достаточного для достижения целей продукта. Это отличается от обычной неопределенности продукта и инженерной неопределенности (которые также разделяют продукты на основе машинного обучения). Более того, в новой области у нас редко бывает достаточно глубоких знаний, чтобы знать лучшую формулировку проблемы, функции, которые нужно использовать, или алгоритм машинного обучения, который нужно применить.

Мы опишем используемые алгоритмы машинного обучения более подробно в одном из следующих постов. Мы можем резюмировать следующее: Линейное моделирование не работало хорошо; Нелинейное моделирование (ансамбли деревьев, вроде случайных лесов) хорошо работало.

Проходя через несколько реальных примеров ниже, мы не раз увидим нелинейность в действии.

На рисунке 2 показан пример областей под кривой ROC (AUC) для пяти основных развернутых итераций (версий) моделирования. Мы опишем итерации более подробно в одном из следующих постов блога. Дело здесь в том, чтобы проиллюстрировать итеративное улучшение, которое мы только что обсудили. В частности, слева направо на рисунке каждый график в виде квадратов и усов представляет собой результат последующей успешной итерации моделирования - различные версии представляют собой некоторый результат от НИОКР, достигших достаточной зрелости для производства. Таким образом, V1 была первой версией, которая была достаточно полезной для развертывания. Каждая последующая версия была полезнее. Вы могли заметить: эй, V4 на самом деле не выглядит лучше - у него более низкая AUC и более высокая дисперсия! Вспомните чему нас учил Джордж Бокс! Модель V4 оказалась более полезной не потому, что она была более точной, а потому, что мы выяснили, как включить большие наборы ранее исключенных свойств без ущерба для точности; он охватил значительно больше домов и, следовательно, дал гораздо больше полезных рекомендаций.

Рис. 2. Области под кривой ROC (AUC) по мере того, как модели развивались в пяти основных развертываниях («версиях»). Существуют десятки моделей для каждой версии, по одной для каждой географической области, и, следовательно, распределение значений AUC.

Ждать. Мы изучаем модели из прошлого периода и применяем их в будущем. Стабильны ли модели во времени?

Возникает естественный вопрос: хорошо ли работают модели, обученные на прошлых данных, когда их просят делать прогнозы на будущие годы?

Чтобы проверить это, мы обучаем несколько моделей, используя разные годы в качестве периодов обучения (продажи с 2012 по 2019 год). В результате получается 9 моделей для каждой из нескольких десятков географических областей, представляющих интерес. Каждая из этих моделей обучается в периоды, все более далекие от периода тестирования. Если факторы, лежащие в основе продаж домов, значительно изменятся, старые модели не будут отражать текущую реальность, и их производительность пострадает. Если основные факторы останутся стабильными, характеристики моделей также будут стабильными.

На рисунке 3 ниже показано, как изменяются AUC моделей при их оценке за последний период тестирования. Чтобы упростить визуальное сравнение, мы нормализуем производительность самой последней модели до 1,0 и показываем производительность прошлых моделей как отношение AUC самой последней модели. Обратите внимание, что производительность постепенно снижается по мере того, как модели становятся старше и старше, что дает нам конкретное свидетельство того, что наши оценки не будут существенно переоценивать производительность наших моделей, когда мы используем их для прогнозирования продаж в следующем году. (А потом случается COVID, бросающий вызов любой форме «обычного ведения бизнеса», но это заслуживает отдельного сообщения в блоге.)

Рисунок 3. Стабильность изученных моделей во времени. Модели, изучаемые в каждом году, тестируются на данных за 2019 год, и относительный AUC (% от 2019 AUC) отображается на тепловой карте. По большому счету, модели довольно стабильны, даже несколько лет назад.

Прогноз LTS в действии: что на самом деле делают изученные модели?

Итак, давайте подробно рассмотрим некоторые примеры, чтобы понять, что делают изученные модели при оценке вероятности продажи. Здесь мы рассмотрим конкретные прогнозы моделей на 2019 календарный год. Напомним, что это означает, что для анализа, для прогнозирования (вывода) мы моделируем состояние дома на 1 января 2019 г. соответственно (модель была обучена в 2018 году - см. рисунок 1 выше). Затем мы можем выяснить, действительно ли каждый дом был продан в 2019 году. Это не наши текущие производственные модели, но поведение, которое мы видим в этих примерах, является репрезентативным.

В приведенных ниже примерах мы будем проводить SHAP-анализ того, какие особенности свойств оказали наибольшее влияние на результаты модели, и попытаемся связать их с некоторыми (по общему признанию, спекулятивными) причинными причинами, которые могут стимулировать продажу конкретного объекта. характеристики.

Начнем с дома, вероятность продажи которого в 2019 году очень высока.

Пример LTS-прогноза №1

Наш первый пример - это дом с 4 спальнями и 2,5 ванными комнатами в районе Атланты. Результат модели этого дома составил 0,48, что значительно выше порогового значения (около 0,12) для классификации этого дома как имеющего ВЫСОКУЮ вероятность продажи в следующие 12 месяцев.

На рисунке ниже показан SHAP-анализ, в котором особенности этого дома оказали наибольшее влияние на итоговую оценку модели. В частности, особенности, близкие к 0,48 в таблице, имеют большее влияние на оценку. Степень влияния представлена ​​размером красного сегмента (и количественно определяется шкалой над сегментами). Под самыми большими сегментами указаны названия функций и их значения для этого конкретного дома. (Не обращайте внимания на синий цвет, пока мы обсудим это в следующих примерах.) Необходимые для интерпретации здесь значения переменных нормализованы с помощью процентильного масштабирования. Следовательно, years_since_sale = 0,89 означает, что у дома был один и тот же владелец в течение относительно долгого времени (в 89-м процентиле) по сравнению со всеми другими домами в регионе.

Пять самых важных характеристик для высокого прогноза этого дома, по сути, раскрывают три вещи:

  • недвижимость большого размера (и спальни, и ванные комнаты составляют около 60-го процентиля по региону), и
  • прошло довольно много времени с тех пор, как он был куплен (years_since_sale находится на 89-м процентиле для этого региона)
  • цена, уплаченная за дом, высока, исходя из цены за квадратный фут, по сравнению со всеми домами, проданными за все годы

Второй и третий факторы кажутся противоречащими друг другу, поскольку мы ожидаем, что стоимость домов в целом повысится. Однако этот дом был приобретен в 2006 году, на пике жилищного бума начала века. Цены только вернулись к этим уровням за последние год или два.

Итак, что это означает с точки зрения того, к чему здесь «идет» модель? Мы не можем знать наверняка, и нам следует быть осторожными, думая, что модель ИИ рассуждает так же, как и мы. Но послушайте, это запись в блоге. Давайте порассуждать!

Тот факт, что дом был приобретен в 2006 году, связан с распространенной причиной, по которой многие дома остаются на рынке: людям не нравится идея о том, что они будут продавать дешевле, чем первоначально заплачено за их дом, ИЛИ они не могут себе позволить продать, потому что они находятся под водой в кредит. Таким образом, модель вполне могла усвоить, что дома, купленные в 2006 году (или около того), больше не являются убытками в этом смысле, и поэтому вероятность продажи домов значительно выше. (Эта причина усугубляется, если домовладелец накопил небольшой капитал в доме; модель, которую мы здесь оцениваем, не принимает во внимание оценочную позицию собственного капитала.)

Тот факт, что 2006 год наступил около 12 лет назад, дает совершенно другую информацию о продаже жилья. Если вы переехали в район, чтобы записать ребенка в местную школьную систему, то по этой причине дом больше не будет иметь ценности. Если возникнет экономический стресс или возникнет желание сделать альтернативные инвестиции, мы можем увидеть список домов вскоре после того, как дети закончат школу.

Конечно, это всего лишь оценка, основанная на данных о продаже недвижимости, а не определение типа домовладельца. Это осложняется тем фактом, что вы могли переехать до первого или после первого класса, или у вас могло быть несколько детей, но опять же, давайте не попадемся в ловушку, полагая, что ИИ рассуждает так же, как мы. Модель оценивает вероятность продажи, не говоря уже о том, будет ли какая-то конкретная семья на самом деле продавать или нет (чего мы не знали бы, даже если бы знали все эти вещи в любом случае). Итак, если на самом деле 12 лет, плюс-минус, кажутся порогом, когда вероятность продажи таких домов меняется, этого может быть достаточно, чтобы существенно увеличить вероятность продажи.

И обратите внимание на «такие дома». Здесь мы переходим к наиболее важным функциям, согласно анализу SHAP. Это дом больше среднего - именно такой дом, владельцы которого могут быть заинтересованы в сокращении размера после нескольких лет проживания в доме после различных потенциальных изменений в жизни.

О, и кстати. Этот дом действительно был продан в следующем году (2019).

Пример LTS-прогноза №2

Давайте посмотрим на другой пример, чтобы показать, что не все дома с высокой вероятностью, определенные моделями, считаются высокими по одним и тем же причинам. В примере № 1 показан дом, размер которого больше среднего является наиболее важным фактором для модели, что дает ему высокую вероятность продажи.

Давайте взглянем на небольшой дом в том же географическом регионе (Атланта), который, тем не менее, имел ВЫСОКУЮ вероятность продажи в следующем году. В этом случае модель дала дому оценку 0,18 (опять же, порог для HIGH LTS в этом регионе и году составляет около 0,12). Приведенный ниже анализ SHAP показывает важные особенности этого дома с 3 спальнями и 1,5 ванными комнатами. Имея только полторы ванны, этот дом находится в самом низком дециле по количеству ванных комнат, а наличие трех спален ниже среднего в этом регионе. Также обратите внимание, что квадратные метры дома относятся к нижнему децилю (всего 1100 квадратных футов). Все три небольшие функции увеличивают вероятность продажи. Это иллюстрирует значительную нелинейность прогнозной модели: в первом примере большое количество ванных комнат является главным фактором, повышающим оценку; здесь небольшое количество ванных комнат - главный фактор, повышающий оценку!

Другая пара характеристик, определяющих высокий балл, заключается в том, что дом был куплен относительно давно (96-й процентиль), а уплаченная цена относительно невысока для региона (23-й процентиль).

Это технические причины, по которым модель дала дому высокий балл. И снова нам остается размышлять о том, что модель здесь «думает». Поскольку дом был продан более 12 лет назад, часть спекулятивного аргумента сверху - что, возможно, домовладельцы закончили среднюю школу - здесь также будет уместна; с другой стороны, аргумент о «сокращении» несостоятельности. Однако есть и другие потенциальные причины, по которым вероятность продаж может отслеживаться по времени нахождения дома. Для дома меньшего размера домовладельцы могли продвинуться в своей карьере до точки, когда они были готовы к постройке дома большего размера. Или хотя бы готовы к месту с двумя санузлами! (Напомним, что небольшое количество ванных комнат - фактор №1 в ВЫСОКОЙ вероятности продажи.)

И кстати. Этот дом действительно был продан в 2019 году.

Пример LTS-прогноза №3

Рассмотрим третий пример. Рассмотрим следующий дом, также недалеко от Атланты. Это небольшое ранчо с 3 спальнями, 1 ванной и навесом для машины. Модель присвоила этому дому оценку 0,11, что привело к классификации СРЕДНЕЙ вероятности продажи в следующие 12 месяцев (напомним, СРЕДНЯЯ означает, что дом находится в верхнем квартиле вероятности продажи, но не в верхнем дециле).

На рисунке ниже показан анализ SHAP для этого дома с некоторой другой динамикой модели в действии. В частности, обратите внимание, что в этом анализе SHAP есть красные и синие сегменты объектов, в основном один большой синий кусок для ванных комнат = 0,04. Точно так же, как красные сегменты показывают наиболее важные особенности в повышении оценки модели для конкретного дома, синие сегменты показывают наиболее важные особенности в понижении оценки. Мы можем интерпретировать сегмент больших синих ванных комнат так: если бы в этом доме было среднее количество ванных комнат, а не небольшое количество ванных комнат (одна), то модель дала бы ему оценку 0,146, а не 0,11 (и, следовательно, он был бы классифицирован как HIGH LTS). Обратите внимание, что это значение функции не так уж сильно отличается от значения функции ванных комнат в предыдущем примере: ванные = 0,04 здесь и ванные комнаты = 0,09 в Примере № 2; оба находятся в самом низком дециле по количеству ванных комнат. В обоих случаях количество ванных комнат имеет наибольшее влияние на оценку модели. Однако здесь очень мало ванных комнат значительно снижает оценку модели. В Примере № 2 количество ванных комнат значительно увеличилось. Это еще одна наглядная демонстрация нелинейности модели. Влияние очень небольшого количества ванных комнат на предполагаемую вероятность продажи различается в зависимости от остальной части дома.

Итак, какие особенности здесь повышают оценку модели? Наиболее важным является «tract_ratio_ppsf = 0,033». Tract_ratio_ppsf показывает, как цена за квадратный фут (ppsf) этого дома (от его последней предыдущей продажи) соотносится с ppsf других домов в том же переписном участке. Значение 0,033 означает, что этот дом был продан по очень низкой цене (третий процентиль в этом переписном районе). Из другой красной особенности в анализе SHAP мы видим, что years_since_sale = 0. Опять же, это не означает, что дом был продан только в прошлом году; это означает, что дом, проданный в самый последний период времени в данных (нулевой процентиль; обратите внимание, что дома, проданные в прошлом году, исключаются из рассмотрения). Другие красные функции фактически являются разными прокси для тех же факторов.

Это говорит о том, что модель оценивает высокую вероятность продажи этого дома, потому что недавно он был продан по очень низкой цене (условно говоря). Мы можем предположить, что здесь модель зафиксировала либо неудачную продажу, либо незавершенную продажу, которые вскоре после этого могут привести к последующей продаже. Мы также можем видеть, что дом, в котором есть только одна ванная комната, существенно снизил предполагаемую вероятность продажи модели в следующем году.

Как и в двух приведенных выше примерах, этот дом действительно был продан в течение следующих 12 месяцев.

Пример LTS-прогноза №4

Чтобы понять крайнюю нелинейность изученной модели, давайте быстро взглянем на другой дом в Атланте, который, как и дом в Примере № 3, также имеет самые высокие значения для функции geo_ppsf (см. Анализ SHAP ниже). Тем не менее, проверьте это: в то время как значение этой функции существенно положительно влияет на прогноз в Примере № 3, теперь оно вносит существенный отрицательный вклад!

Точно так же years_since_sale = 0, как в Примере № 3, но там он был одним из самых положительных участников; здесь он является основным отрицательным участником. Это показывает, что в другом контексте одни и те же функции могут иметь совершенно разные эффекты. Здесь эти функции (отмечены синим цветом) снизили оценку до 0,05. Без синего «отрыва» дом также был бы выше порогового значения для СРЕДНЕГО балла. Фактическая итоговая оценка 0,05 была ниже порога для любой рекомендации LTS.

Этот дом не продавался в последующие 12 месяцев.

Пример LTS-прогноза №5

Последний пример - не пропустить! Наша изученная модель оценила вероятность продажи следующего дома. Недвижимость в Лавленде, штат Колорадо, получила одну из самых высоких оценок вероятности продажи в 2018 году (на этот раз на основе модели 2017 года). Анализ SHAP помогает нам понять, какие особенности этого дома способствовали получению высоких баллов:

В частности, здесь можно увидеть, что модель опиралась на еще один набор характеристик, в том числе на то, что вероятность рождения ребенка в предыдущем году этого переписного участка была очень высокой (96-й процентиль). И мы знаем, что главная причина для переезда - перерасти дом.

Возможно, нам не стоит удивляться высокой вероятности рождения в Лавленде!

Что дальше?

Как вы, наверное, знали, применять машинное обучение для создания эффективных бизнес-приложений сложно. Мы надеемся, что эта часть нашей серии сообщений в блоге пролила больше света на некоторые детали, но есть еще много чего, что нужно обсудить. Затем мы углубимся в общую оценку наших моделей рекомендаций «Вероятность продажи».

Будьте на связи!