Как Airbnb использует машинное обучение для выявления интересов гостей на основе неструктурированных текстовых данных и предоставления персонализированных рекомендаций хозяевам

Автор: Джой Цзин и Цзин Ся

В Airbnb мы стремимся построить мир, в котором каждый может принадлежать кому угодно. Мы стремимся понять, что волнует наших гостей, и подобрать для них Хозяев, которые могут предоставить то, что они ищут. Что может быть лучшим источником сведений о предпочтениях гостей, чем сами гости?

Мы создали систему под названием Система приоритезации атрибутов (APS), чтобы прислушиваться к потребностям наших гостей в доме: что они просят в сообщениях хозяевам? Что они комментируют в обзорах? Каковы общие запросы при звонке в службу поддержки? И как он отличается от расположения дома, типа недвижимости, цены, а также потребностей гостей в поездках?

Благодаря этому личному пониманию того, какие домашние удобства, удобства и особенности местоположения (т. е. «домашние атрибуты») наиболее важны для наших гостей, мы советуем Хозяевам, какие домашние атрибуты следует приобретать, продавать и проверять. Мы также можем показать гостям те атрибуты дома, которые наиболее соответствуют их назначению и потребностям.

Мы делаем это с помощью масштабируемой, платформенной и управляемой данными инженерной системы. В этом сообщении в блоге описываются научные и инженерные разработки, лежащие в основе системы.

Что волнует гостей?

Во-первых, чтобы определить, что важнее всего для наших гостей в доме, мы смотрим на то, что гости чаще всего просят, комментируют и связываются со службой поддержки. Они спрашивают хозяина, есть ли у него Wi-Fi, бесплатная парковка, личная гидромассажная ванна или доступ к пляжу?

Чтобы анализировать эти неструктурированные данные в масштабе, Airbnb создала LATEX (ListingATtribute EXtraction), машину обучающая система, которая может извлекать атрибуты дома из неструктурированных текстовых данных, таких как гостевые сообщения и отзывы, запросы в службу поддержки клиентов и описания объявлений. LATEX выполняет это в два этапа:

  1. Модуль распознавания именованных объектов (NER) извлекает ключевые фразы из неструктурированных текстовых данных.
  2. Затем модуль сопоставления сущностей сопоставляет эти ключевые фразы с домашними атрибутами.

Модуль Распознавание именованных объектов (NER) использует textCNN (сверточная нейронная сеть для текста) и обучается и точно настраивается на текстовых данных, помеченных людьми, из различных источников данных в Airbnb. В обучающем наборе данных мы помечаем каждую фразу, которая попадает в следующие пять категорий: Развлечения, Деятельность, Событие, Конкретная точка интереса (например, Озеро Тахо) или общая точка интереса (например, Почтовое отделение).

Модуль сопоставления сущностей использует неконтролируемый подход к обучению, чтобы сопоставить эти фразы с домашними атрибутами. Для этого мы вычисляем косинусное расстояние между фразой-кандидатом и меткой атрибута в точно настроенном пространстве встраивания слов. Мы считаем ближайшим сопоставлением атрибут, на который указывает ссылка, и можем рассчитать показатель достоверности для сопоставления.

Затем мы вычисляем, как часто объект упоминается в каждом текстовом источнике (т. е. в сообщениях, отзывах, билетах службы поддержки клиентов), и агрегируем нормализованную частоту по текстовым источникам. Домашние атрибуты с большим количеством упоминаний считаются более важными.

С помощью этой системы мы можем получить представление о том, что интересует гостей, и даже выделить новые объекты, которые мы еще не поддерживаем. Масштабируемая инженерная система также позволяет нам улучшать модель, подключая дополнительные источники данных и языки.

Что важно для гостей в разных типах домов?

То, что гости ищут в горной хижине, отличается от городской квартиры. Более полное понимание потребностей гостей в доме Airbnb позволяет нам предоставлять Хозяевам более персонализированные рекомендации.

Для этого мы вычисляем уникальный рейтинг атрибутов для каждого дома. Основываясь на характеристиках дома — местоположении, типе собственности, вместимости, уровне роскоши и т. д. — мы прогнозируем, как часто каждый атрибут будет упоминаться в сообщениях, отзывах и запросах в службу поддержки. Затем мы используем эти предсказанные частоты для расчета индивидуальной оценки важности, которая используется для ранжирования всех возможных атрибутов дома.

Например, давайте рассмотрим горную хижину, в которой могут разместиться шесть человек, при средней дневной цене 50 долларов. Определяя, что наиболее важно для потенциальных гостей, мы узнаем о том, что чаще всего говорят о других домах, обладающих такими же характеристиками. Результат: джакузи, место для костра, вид на озеро, вид на горы, гриль и каяк. Напротив, для городской квартиры важны: парковка, рестораны, продуктовые магазины и станции метро.

Мы могли бы напрямую агрегировать частоту использования ключевых слов среди похожих домов. Но этот подход столкнется с проблемами в масштабе; мощность наших домашних сегментов может расти экспоненциально, с разреженными данными в очень уникальных сегментах. Вместо этого мы построили модель вывода, которая использует необработанные данные о частоте ключевых слов для вывода ожидаемой частоты для сегмента. Этот подход к выводу является масштабируемым, поскольку мы используем более тонкие и дополнительные измерения для характеристики наших домов. Это позволяет нам поддерживать наших Хозяев, чтобы наилучшим образом выделить их уникальную и разнообразную коллекцию домов.

Как предпочтения гостей могут помочь хозяевам стать лучше?

Теперь, когда у нас есть четкое представление о том, чего хотят гости, мы можем помочь Хозяевам продемонстрировать, что им нужно:

  • Рекомендовать Хозяевам приобрести удобства, которые часто просят гости (например, кофеварку).
  • Мерчендайзинг существующего домашнего атрибута, о котором гости склонны положительно отзываться в отзывах (например, патио)
  • Уточнение популярных средств, которые могут привести к запросам в службу поддержки (например, конфиденциальность и возможность доступа к пулу)

Но чтобы сделать эти рекомендации актуальными, недостаточно знать, чего хотят гости. Мы также должны быть уверены в том, что уже есть в доме. Это оказывается сложнее, чем спрашивать у хоста, потому что мы собираем более 800 домашних атрибутов. Большинство хозяев не могут сразу и точно добавить все атрибуты своего дома, тем более что такие удобства, как детская кроватка, означают разные вещи для разных людей. Чтобы заполнить некоторые пробелы, мы используем отзывы гостей об удобствах и услугах, которые они видели или использовали. Кроме того, некоторые атрибуты дома доступны от заслуживающих доверия третьих лиц, таких как базы данных о недвижимости или геолокации, которые могут предоставить информацию о квадратных метрах, количестве спален или о том, выходит ли дом на озеро или пляж. Мы можем создать действительно полную картину дома, используя данные от наших Хозяев, гостей и заслуживающих доверия третьих лиц.

Мы используем несколько разных моделей, в том числе байесовскую модель вывода, достоверность которой возрастает по мере того, как все больше гостей подтверждают, что у дома есть атрибут. Мы также используем модель машинного обучения WiDeText с контролируемой нейронной сетью, которая использует функции дома, чтобы предсказать вероятность того, что следующий гость подтвердит существование атрибута.

Вместе с нашей оценкой того, насколько важны определенные атрибуты дома для дома, и вероятностью того, что атрибут дома уже существует или нуждается в уточнении, мы можем дать персонализированные и актуальные рекомендации Хозяевам о том, что приобретать, продавать и уточнять при продвижении. свой дом на Airbnb.

Что дальше?

Впервые мы узнали, какие атрибуты нужны нашим гостям вплоть до домашнего уровня. Что важно, сильно зависит от местоположения дома и типа поездки.

Эта комплексная система приоритизации позволила нам давать Хозяевам более актуальные и персонализированные советы, продавать то, что ищут гости, и точно представлять популярные и спорные атрибуты. Когда Хозяева точно описывают свои дома и подчеркивают, что волнует гостей, гостям будет легче найти идеальный дом для отпуска.

В настоящее время мы экспериментируем с выделением удобств, наиболее важных для каждого типа дома (например, каяк для горной хижины, парковка для городской квартиры) на странице описания дома. Мы считаем, что можем использовать полученные знания для улучшения поиска и определения того, какие атрибуты дома наиболее важны для разных категорий домов.

Что касается Хозяев, мы расширяем эту методологию определения приоритетов, чтобы включить в нее дополнительные советы и сведения о том, как Хозяева могут сделать свои объявления еще более привлекательными. Это включает в себя такие действия, как освобождение популярных ночей, предложение скидок и изменение настроек. Используя неструктурированные текстовые данные, чтобы помочь гостям связаться с их идеальным Хозяином и домом, мы надеемся создать мир, в котором каждый может находиться где угодно.

Если этот вид работы вас интересует, ознакомьтесь с некоторыми из наших вакансий в разделе Карьера в Airbnb!

Благодарности

Чтобы построить такую ​​надежную платформу с полным стеком, нужна деревня. Особая благодарность (в алфавитном порядке по фамилии) Усман Аббаси, Дин Чен, Гийом Гай, Ноа Хендрикс, Хунвэй Ли, Сяо Ли, Сара Лю, Кианру Ма, Dan Nguyen, Martin Nguyen, Brennan Polley, Federico Ponte, Jose Rodriguez, Peng Wang, Rongru Yan, Meng Yu, Lu Zhang за их вклад, самоотверженность, опыт , и продуманность!