Как мы применяли качественное обучение, маркировку людей и машинное обучение для итеративной разработки таксономии поддержки сообщества Airbnb.

Автор: Миа Чжао, Пегги Шао, Мэгги Хэнсон, Пэн Ван, Бо Цзэн

Фон

Таксономии — это системы организации знаний, используемые для классификации и организации информации. Таксономии используют слова для описания вещей — в отличие от чисел или символов — и иерархии для группировки вещей по категориям. Структура таксономии выражает то, как эти вещи соотносятся друг с другом. Например, Суперхозяин — это тип Хозяин, а Хозяин — тип Пользователя Airbnb. Таксономии обеспечивают жизненно важный контроль терминологии и позволяют нижестоящим системам перемещаться по информации и анализировать непротиворечивые структурированные данные.

Airbnb использует таксономии во внешних продуктах, чтобы помочь гостям и хозяевам находить интересные варианты проживания или впечатления, а также вдохновляющий контент и предложения поддержки клиентов. Airbnb также использует таксономии в закулисных инструментах для структурирования данных, организации внутренней информации и поддержки приложений машинного обучения.

Классификация типов проблем, с которыми сталкиваются члены сообщества Airbnb, жизненно важна по нескольким причинам:

  • Хозяева и гости должны иметь возможность описывать проблемы Airbnb, чтобы получать соответствующие рекомендации или связываться с лучшей поддержкой.
  • Послы поддержки (специалисты службы поддержки сообщества Airbnb) нуждаются в быстром и легком доступе к рабочим процессам, которые помогают им решать проблемы для гостей и хозяев.
  • Подразделениям Airbnb необходимо понимать, где и почему гости и хозяева сталкиваются с проблемами, чтобы мы могли улучшить наш продукт и улучшить взаимодействие с Airbnb.

Таксономия «Причины контакта» — это новая консолидированная таксономия проблем, которая поддерживает все эти варианты использования. До появления Contact Reasons у службы поддержки сообщества были отдельные таксономии для гостей и хостов, представителей службы поддержки и модели машинного обучения, каждая из которых использовала разные слова и структуры для классификации одних и тех же проблем и полагалась на ручное сопоставление для синхронизации.

Объединение разрозненных таксономий проблем в «Причины контакта» было первым проектом такого рода в Airbnb. Разработка такой новой таксономии требует многократного обучения: создание/пересмотр таксономии таксономистами; развертывание для обучения модели машинного обучения, продуктов и услуг; оценить качество таксономии и определить области для улучшения. До этой работы не существовало систематического процесса оценки развития или производительности таксономии, и итерация была в основном субъективной и качественной. Чтобы ускорить итеративную разработку с более количественной и объективной оценкой качества таксономии, мы создали T-LEAF, Tсистему Lобучения и Оценка Ation Fframework для количественной оценки таксономии с трех точек зрения: охват, полезность и согласие.

Проблемы в оценке новой таксономии

В области поддержки сообщества Airbnb часто необходимо создавать новые таксономии или узлы таксономии, прежде чем у нас будут либо реальные данные, либо четкие приложения рабочего процесса. Без согласованной системы количественной оценки для создания входных показателей трудно измерить качество новой таксономии (или версии таксономии) при ее непосредственном применении к нижестоящим приложениям.

Отсутствие системы количественной оценки

Таксономии обычно разрабатываются с использованием подходов, ориентированных на качество¹. Когда мы приступили к созданию прототипа новой таксономии, мы оценили отзывы существующих пользователей и наняли гостей и организаторов для нескольких раундов исследования пользователей, чтобы получить представление. Хотя качественная оценка, такая как экспертная оценка предметной области, полезна для выявления проблем и возможностей высокого уровня, ее недостаточно для проведения оценки в масштабе из-за небольшого размера выборки и потенциальной систематической ошибки выборки со стороны пользователей, участвующих в исследовании.

Длительный и повторяющийся цикл запуска таксономии

Разработка и запуск таксономии может быть длительным и повторяющимся процессом, который требует нескольких кварталов использования, чтобы получить существенную и надежную количественную обратную связь. Типичный процесс включает в себя:

  • Обнаружение и разработка таксономии на основе требований к продукту или анализа данных
  • Производственные изменения для интеграции серверных сред и внешних интерфейсов, включая необходимые обновления дизайна и контента.
  • Модель машинного обучения (пере)маркировка обучающих данных, переобучение и развертывание
  • Журналирование и анализ данных по отзывам пользователей

До T-LEAF процесс разработки таксономии основывался исключительно на выходных показателях для измерения эффективности новой таксономии, а это означает, что: 1) большие изменения требуют много времени для экспериментов и тестирования; и 2) незначительные изменения, такие как добавление или обновление новых узлов, не проверяются. Эти две болевые точки можно решить с помощью структуры T-LEAF путем последовательной и периодической оценки.

T-LEAF был разработан, чтобы включить больше количественных оценок в разработку таксономии и устранить две вышеупомянутые болевые точки, чтобы ускорить итерацию разработки таксономии.

Система обучения и оценки таксономии (T-LEAF)

Качество таксономии

Платформа T-LEAF измеряет качество таксономии по трем аспектам: 1) охват, 2) полезность и 3) согласие.

Покрытие

Покрытие показывает, насколько хорошо таксономия может классифицировать объем объектов реального мира. В разделе «Причины контакта» показатель охвата оценивает, насколько хорошо классификация отражает причины, по которым гости и хозяева обращаются в службу поддержки сообщества Airbnb. Когда «покрытие» низкое, многие пользовательские проблемы (объекты данных) не будут охвачены таксономией и станут «Другими» или «Неизвестными».

Показатель охвата = 1 — процент данных, классифицированных как «другие» или «неопределенные».

Полезность

Полезность показывает, насколько равномерно объекты распределяются по структуре таксономии по значимым категориям. Если таксономия слишком грубая, то есть имеет слишком мало узлов или категорий, ограниченное количество вариантов может неадекватно различать описываемые объекты. С другой стороны, если таксономия слишком детализирована, она может не объяснить сходства между объектами.

В T-LEAF для эталонного набора данных с n примерами (например, отдельные проблемы пользователей) мы предполагаем, что таксономия с числом узлов sqrt(n)² обеспечивает хороший баланс между «слишком грубым» и «слишком детальным». Для любого входа x мы вычисляем раздельную оценку из (0,1] для оценки «полезности»:

Мы хотим оценить отклонение данных, предполагая нормальное распределение. Например, при наличии 100 различных пользовательских проблем, если мы разделим их на 1 («слишком грубые») или на 100 категорий («слишком детализированные»), оценка полезности будет близка к 0; если мы разделим на 10 категорий, показатель полезности будет равен 1.

Соглашение

Согласие фиксирует межоценочную надежность с учетом таксономии. Мы предлагаем два способа оценки согласия.

Межэкспертное соглашение Human Label

Несколько аннотаторов-людей аннотируют одни и те же данные в соответствии с определением таксономии, и мы рассчитываем межэкспертную надежность с использованием Кеппа Коэна в диапазоне [-1, 1]:

Точность обучения модели машинного обучения

Наличие нескольких оценщиков, аннотирующих один набор данных, может быть дорогостоящим. На самом деле большинство данных аннотируется одним человеком. В Службе поддержки сообщества Airbnb каждая проблема/заявка клиента обрабатывается одним агентом, и агенты маркируют тип проблемы заявки на основе таксономии. Мы обучаем модель ML на основе этих данных обучения, помеченных одним оценщиком, а затем применяем модель к данным обучения, чтобы измерить точность обучения. Если таксономия хорошо определена (т. е. с высоким «согласованием»), то похожие проблемы (точки данных) должны иметь одинаковые метки, даже если эти метки исходят от разных агентов. Модели машинного обучения, обученные на строго согласованном (согласованном) обучающем наборе данных, должны иметь высокую точность обучения.

Мы провели эксперименты, сравнивая подход к согласованию между экспертами с несколькими метками и точность обучения машинного обучения по данным обучения с одной оценкой.

Результаты представлены в таблице 1. Мы заметили, что для обоих методов: 1) точность была одинаковой для двух верхних уровней таксономии (проблемы L1 и L2 определены в следующем разделе) и; 2) в обоих подходах были схожие области путаницы. Если узлы таксономии достаточно четкие, чтобы люди могли выполнять тегирование, уровень согласованности увеличивается, и модель может лучше отражать намерения человека. Обратное тоже верно; На точность обучения модели негативно влияет, если конечные пользователи путаются в параметрах или не могут выбрать правильные категории.

1 аналитику и 9 аннотаторам потребовалось около месяца, чтобы создать набор данных с несколькими экспертами. Напротив, одному инженеру машинного обучения в день требовалось обучить модель машинного обучения на данных с одной оценкой и рассчитать точность обучения. Как показано в таблице 1, точность обучения ML обеспечивает аналогичную оценку качества «согласования» таксономии.

Разработка таксономии причин контакта с использованием T-LEAF

Таксономия Contact Reasons состоит из почти 200 узлов, разбросанных по иерархии, которая идет от широких категорий на уровне 1 (L1) к ​​более узким категориям на уровне 2 (L2) и конкретным проблемам на уровне 3 (L3). Например:

  • Проблемы с бронированием (L1)
  • Вопросы чистоты и здоровья (L2)
  • Дым или другие запахи в листинге (L3)

В то время как старая таксономия имела непредсказуемый уровень детализации в зависимости от раздела, Contact Reasons имеет последовательную трехуровневую структуру, которая лучше поддерживает нашу структуру непрерывной оценки. Мы использовали T-LEAF при переходе от старой таксономии к новой таксономии (причины контакта), чтобы ускорить цикл обратной связи и обеспечить количественный контроль качества перед запуском новой таксономии в производственные среды (рис. 3).

Во-первых, мы отправили реальный набор данных в Лабораторию поддержки сообщества Airbnb (CS Labs) — группу опытных и постоянных послов службы поддержки — для аннотации людьми. Затем мы использовали баллы T-LEAF в качестве входных данных для процесса разработки таксономии. Используя эти данные, инженерная группа Core Machine Learning (CoreML) и группа таксономии объединились, чтобы значительно улучшить показатели T-LEAF, прежде чем запускать эксперименты в рабочей среде.

Чтобы оценить таксономию «Причины контакта» в одной из этих производственных сред, мы проверили ее эффективность в боте Airbnb³. Бот Airbnb — один из основных продуктов службы поддержки сообщества, который помогает гостям и хозяевам самостоятельно решать проблемы и при необходимости связываться с представителями службы поддержки. Мы обнаружили, что улучшения в таксономии «Причина контакта», измеряемые показателями охвата, полезности и согласия T-LEAF, также привели к фактическим улучшениям в охвате проблем, эффективности самостоятельного решения и точности прогнозирования проблем.

Более высокий показатель покрытия T-LEAF приводит к большему охвату проблем в производстве.

После запуска таксономии «Причины контакта» мы изучили производственные данные за 4 месяца и обнаружили, что 1,45% проблем были помечены как «Это что-то другое», что на 5,8% меньше, чем в старой таксономии. Это согласуется с улучшением показателя покрытия T-LEAF (на 5,3% больше покрытия, чем в предыдущей версии).

Более высокий балл полезности приводит к тому, что больше проблем решается с помощью самообслуживания.

Например, в новой таксономии есть два новых узла под названием «Отмены и возвраты › Отмена забронированного вами бронирования › Помощь Хозяину с отменой» и «Отмены и возвраты › Отмена бронирования. бронирование, которое вы размещаете › Помощь гостю с отменой.». В старой таксономии есть только узлы для «Бронирования › Отмены › Инициированные хозяином» и «Бронирования › Отмены › Инициировано гостем», в котором не было детализации для определения того, когда гость или организатор, обращающийся за поддержкой, не является тем, кто запрашивает отмену.

С новыми узлами мы разработали модель машинного обучения, которая направляет трафик в соответствии с индивидуальными рабочими процессами отмены⁴. Это гарантирует, что гости получат соответствующее возмещение, а штрафы за отмену бронирования применяются только в случае необходимости, и все это без необходимости связываться с представителями службы поддержки Airbnb.

Более высокий показатель согласованности T-LEAF приводит к более точному прогнозированию проблем.

По сравнению с моделями прогнозирования проблем, основанными на старой таксономии, модель, построенная на новой таксономии, имеет улучшенную точность на 9%. Это означает, что категория, которую модель машинного обучения предсказывает для проблемы, с большей вероятностью будет соответствовать категория, выбранная амбассадором службы поддержки.

Заключение

Количественная структура для оценки таксономии поддерживает более быстрые итерации и снижает риск запуска серьезных преобразований таксономии, что оказывает положительное влияние на всю нашу аудиторию: гостей, хозяев, представителей службы поддержки и компаний Airbnb. Структура T-LEAF, которая оценивает качество таксономии в аспектах охвата, полезности, согласия, теперь была применена к производственной таксономии в поддержке сообщества, и результаты показывают, что использование этой методологии для количественной оценки таксономии может привести к повышению производительности модели и больший охват проблемы.

Разработка, пилотное тестирование и создание T-LEAF как части нашей системы непрерывного совершенствования для эволюции таксономии — результат совместной работы команд. Команда CoreML тесно сотрудничала с Taxonomy, Product и CS Labs, чтобы создать эту новую модель для итеративной разработки категоризации и прогнозирования проблем. Опробовав этот новый способ работы над причинами контакта, мы уверены, что увидим больше положительных результатов, поскольку продолжим применять методологию T-LEAF к будущим инициативам по таксономии.

[1]: Шопински Д., Шурманн Т. и Кундиш Д. (2019). Потому что ваша таксономия стоит ИТ: к основе для оценки таксономии. ЭКИС. https://aisel.aisnet.org/ecis2019_rp/104/

[2]: Карлис, Дж., и Брузо, К. (2012). RSQRT: ЭВРИСТИКА ДЛЯ ОЦЕНКИ КОЛИЧЕСТВА КЛАСТЕРОВ ДЛЯ ОТЧЕТА. Исследования и приложения в области электронной коммерции, 11(2), 152–158. https://doi.org/10.1016/j.elerap.2011.12.006

[3]: Платформа интеллектуальной автоматизации: Расширение возможностей диалогового ИИ и не только в Airbnb. https://medium.com/airbnb-engineering/intelligent-automation-platform-empowering-conversational-ai-and-beyond-at-airbnb-869c44833ff2

[4]: Целенаправленный разговорный искусственный интеллект в службе поддержки клиентов Airbnb. https://medium.com/airbnb-engineering/Task-Oriented-Conversational-ai-in-airbnb-customer-support-5ebf49169eaa

Хотите работать в Airbnb? Проверьте эти открытые роли:

Старший штатный архитектор данных, Платформа поддержки сообщества

Сэр. Менеджер по продукту, продукты сообщества

Менеджер по продукту, претензионный опыт

Благодарности

Спасибо CS Labs за поддержку маркировки существующих и новых таксономий!

Спасибо Пратик Шах, Рэйчел Ланг, Декстер Дилла, Шуо Чжан, Чжихэн Сюй, Алекс Чжоу, Уэйн Чжан, Чжэнью Чжао, Джерри Хонг, Гэвин Ли, Кристен Джабер, Ализа Хохштейн, Найсин Чжан, Джина Грум, Робин Фойл, Параг Хардас, Zhiying Gu, Kevin Jungmeisteris, Jonathan Li-On Wing, Danielle Martin, Bill Selman, Hwanghah Jeong, Stanley Wong, Lindsey Oben, Chris Enzaldo, Jijo George, Ravish Gadhwal и Ben Ma за поддержку нашего успешного запуска таксономии CS и приложений, связанных с рабочим процессом !

Спасибо Joy Zhang, Andy Yasutake, Jerry Hong, Lianghao Li, Susan Stevens, Evelyn Shen, Axelle Vivien, Lauren Mackevich, Cynthia Garda за рецензирование, редактирование и внесение замечательных предложений в запись в блоге!

И последнее, но не менее важное: мы благодарим Джой Чжан, Энди Ясутаке, Раджа Раджагопала, Тину Су и Синтию Гарда за поддержку руководства!