Как Airbnb обеспечивает автоматическую поддержку, чтобы повысить качество обслуживания хозяев и гостей

Гэвин Ли, Миа Чжао

Служба поддержки клиентов (CS) может улучшить или испортить впечатления гостя от путешествий. Чтобы поддержать сообщество гостей и хозяев Airbnb, мы вкладываем значительные средства в разработку интеллектуальных решений CS, использующих новейшие технологии обработки естественного языка (NLP), машинного обучения (ML) и искусственного интеллекта (AI).

В этом сообщении блога мы представим автоматизированную систему поддержки Airbnb, в которой используется новейшая технология диалогового ИИ, ориентированная на конкретные задачи, через призму недавно запущенной функции под названием «Взаимная отмена». Мы подробно опишем, как мы сформулировали бизнес-проблему как проблему искусственного интеллекта, как мы собрали и пометили данные обучения, как мы спроектировали и построили модели машинного обучения и как модели были развернуты в онлайн-системе. На каждом этапе мы будем обсуждать некоторые технические проблемы, с которыми мы столкнулись в ходе этого проекта, и решения, которые мы внедрили для их решения.

Пример из практики: взаимное аннулирование

До разработки модели взаимной отмены гостям необходимо было привлечь агентов CS, даже если они уже достигли соглашения с хозяином об отмене бронирования. Это означало, что на решение проблем уходило больше времени, а драгоценные часы работы агентов CS были потрачены впустую. Чтобы решить эту проблему, мы разработали модели искусственного интеллекта, которые помогают гостям и организаторам самостоятельно решать проблемы отмены и возврата средств без участия агента CS. Это дает возможность хозяевам и гостям решать, что лучше для них, а нам позволяет сосредоточить часы работы агентов CS там, где они больше всего нужны.

В оставшейся части поста мы будем использовать функцию взаимной отмены в качестве примера для описания технических компонентов системы AI Airbnb, ориентированной на конкретные задачи.

Архитектура системы

Команда интеллектуальной платформы поддержки Airbnb разрабатывает передовые технологии искусственного интеллекта, чтобы помочь гостям и хозяевам решить свои проблемы наиболее эффективным образом. Наши модели искусственного интеллекта, основанные на платформе чат-ботов, которую мы создали, ATIS, нацелены на изучение и имитацию того, как агенты-люди обеспечивают теплый и эффективный уход за клиентами. Теплый и эффективный опыт работы с клиентами начинается с личного и интеллектуального определения проблемы, направленного на быстрое понимание ситуации, потребностей, вопросов и проблем пользователя с минимальными затруднениями. После того, как проблема четко определена, мы динамически генерируем ответы и направляем пользователей через различные рабочие процессы продукта, чтобы решить свои проблемы или направить их агентам-людям.

Наш интеллектуальный продукт поддержки клиентов разработан как диалоговая система, ориентированная на задачи (Zang et al. 2020, Madotto et al. 2020). В последние годы все больший интерес вызывают диалоговые системы, ориентированные на конкретные задачи, и используются в продуктах искусственного интеллекта, от виртуальных помощников до умных динамиков. Эти модели могут понимать намерения пользователя (например, проигрывать музыку), извлекать необходимые параметры (например, имя исполнителя и название песни) из разговора, задавать вопросы для уточнения деталей (например, «существует две версии эту песню, какую из них вы любите играть? ') и завершите задание - все время ведя диалог с пользователем, который кажется совершенно естественным.

Поддержка клиентов как проблема диалога, ориентированного на задачу

В реальных приложениях машинного обучения самая важная часть головоломки - как сформулировать проблему. Формулировка проблемы оказывает гораздо более значительное влияние на долгосрочную эффективность продукта, чем сама модель. Перед написанием единственной строчки кода необходимо принять множество решений и пойти на компромисс. Мы разработали многоуровневую систему обнаружения проблем и принятия решений, чтобы обеспечить как расширяемость, так и специфичность предметной области для проблемы поддержки клиентов, как показано на рисунке 2.

Когда пользователь отправляет сообщение в чат-боте Airbnb, сообщение обрабатывается первым уровнем - моделью классификации доменов. Модель классификации доменов определяет, к какому домену принадлежит сообщение, например, запрос на перебронирование поездки, запрос на возмещение за отмену или вопрос, на который можно ответить с помощью рекомендаций в справочной статье. Если предполагается, что домен взаимной отмены будет наиболее вероятным, система запускает поток взаимной отмены и переходит на второй уровень, чтобы лучше понять намерения пользователя и проверить соответствие критериям взаимной отмены.

Для взаимной отмены на втором уровне есть две модели: модель понимания намерений на основе вопросов и ответов и модель «прогнозируемого коэффициента возврата». Модель намерения вопросов и ответов обучается на вручную помеченном наборе данных. Модель «прогнозирования ожидаемого коэффициента возврата» обучается на исторических данных об отменах и коэффициенте возврата, выбранном агентами. Коэффициенты возмещения отражают многие важные характеристики поездки, которые имеют решающее значение для системы ИИ при принятии решений от имени агентов-людей.

Многослойная структура имеет следующие преимущества:

  • Масштабируемость: позволяет расширять систему до новых доменов, а модели для существующих доменов не будут зависеть от новых доменов.
  • Эффективно: модель верхнего уровня обучается на вручную размеченных данных, которые обычно имеют высокое качество, но зачастую их сложно и дорого собирать. Специфические для предметной области модели в основном обучаются на основе исторических данных, их легко собрать, но они содержат много шума и предвзято относятся к прошлому поведению пользователей. Многоуровневая структура позволяет нам использовать данные, помеченные людьми, для обучения модели прогнозирования домена верхнего уровня и исторические данные для обучения моделей, специфичных для предметной области.

Сбор и маркировка данных обучения

Типичная диалоговая система, ориентированная на задачу, строит дерево таксономии намерений, где каждый узел представляет некоторое намерение, а узлы являются взаимоисключающими. В службе поддержки Airbnb, как и в других службах поддержки клиентов в рамках совместной экономики, проблемы пользователей содержат сложные проблемы, которые менее структурны, чем на типичной торговой площадке в Интернете. Сложно, если вообще возможно, определить чистое дерево таксономии, чтобы охватить ВСЕ проблемы пользователей и разделить их в иерархическом дереве.

Кроме того, дерево таксономии обычно подразумевает, что нам нужно пройти от корневого узла по пути к конечному узлу. По пути система задает вопросы (например, «Вы хотите отменить резервирование?») Или собирает дополнительную информацию (например, «Является ли пользователь гостем или хостом?»), Чтобы решить, какую ветвь продолжить. В случае с Airbnb проблемы пользователей намного сложнее, и для эффективного определения проблемы может потребоваться разная последовательность вопросов. Для взаимной отмены первый вопрос («согласны ли хозяин и гость друг с другом») и второй вопрос («кто инициировал отмену») охватывают различные аспекты процесса отмены и возврата. Может быть сложно разработать простую и понятную таксономию древовидной структуры, охватывающую все проблемы пользователей, и полагаться на путь вниз по дереву для эффективного сбора необходимой информации. Вместо этого мы моделируем понимание намерений как проблему вопросов и ответов (Q&A).

Модель вопросов и ответов для понимания намерений пользователя

Получив первоначальное сообщение пользователя для нашей платформы CS, мы задаем пару вопросов о намерениях пользователя, а затем на эти вопросы даем ответы агентам / специалистам по маркировке. Благодаря этой настройке мы собираем данные и обучаем модель вопросов и ответов. Обученная модель вопросов и ответов может ответить на эти вопросы аналогичным образом. На вопросы пользователей может быть несколько ответов, и пользователи часто пытаются описать проблему с разных сторон. В некоторых случаях вопросы могут быть взаимоисключающими, тогда как в других случаях вопросы могут содержать избыточную информацию.

Ниже приведены несколько примеров, которые мы задаем нашим специалистам по маркировке:

Сообщение пользователя Airbnb:

Здравствуйте! Я сделал оговорку неправильно. Думая, что это была аренда целой квартиры, тогда как на самом деле это была просто комната. Я не обращал внимания. Я сразу же поговорил с хозяином, она согласилась вернуть мне деньги и попросила меня запросить возврат денег из приложения, но я не могу найти вариант.

Вопрос: кто инициировал отмену?

Ответ:

  1. Хост инициировал отмену, или хост не смог принять гостя
  2. Гость инициировал отмену
  3. Не упоминается

Вопрос: договариваются ли хозяин и гость о возврате средств?

Ответ:

  1. Организатор соглашается предложить возмещение и сумму возмещения
  2. Хозяин и гость различаются по сумме возмещения
  3. Организатор не согласен с возвратом средств или уже отклонил его
  4. В соглашении о возврате не упоминается
  5. Возврат вообще не упоминается

Вопрос: гость спрашивает, как они могут получить то, что хотят? (как вернуть деньги, что делать и т. д.)

Ответ:

  1. Да
  2. No

Вопрос: спрашивает ли гость, как он может получить возмещение, возможно ли это или сколько он может получить возмещения?

Ответ:

  1. Да
  2. No

Задачи вопросов и ответов с множественным выбором ответов обычно моделируются как задача классификации на несколько классов, где каждому классу соответствует один вопрос. Однако Jiang et al. (2020) предложила идею моделирования задач вопросов и ответов как задач бинарной классификации с одним выбором. При таком моделировании проблемы ее сложность возрастает. Выбора правильного ответа из нескольких вариантов уже недостаточно - модель должна предсказывать правильный выбор как положительный, а все остальные варианты - как отрицательные. Такой подход упрощает объединение нескольких задач, связанных с вопросами и ответами, что позволяет нам увеличить масштабы предварительного обучения. Хашаби и др. (2020) аналогичным образом обнаружил, что объединение нескольких наборов данных до обучения может помочь повысить производительность модели.

Мы следуем двоичной настройке с одним выбором, которая позволяет нам унифицировать связанные метки обучения намерений пользователей из разных доменов, чтобы увеличить масштаб наших обучающих данных и повысить производительность. Как указано выше, мы постоянно проверяем качество маркировки данных и уточняем дизайн анкеты для маркировки. В результате существует множество вариантов маркировки вопросов и ответов для каждой версии. Настройка с одним выбором позволяет нам смешивать все разные версии наших учебных вопросов вместе в процессе обучения.

На рисунках 3 и 4 показана разница между настройками с одним и несколькими вариантами для примера сообщения «Мой хост согласился полностью вернуть мне деньги, поэтому, если я отменил сейчас, могу ли я получить полный возврат?»

На рисунке 5 показана разница в производительности модели в нашем эксперименте. Настройка с одним выбором вопросов и ответов превосходит традиционную настройку многоклассовой классификации намерений как по точности прогнозирования маркировки в автономном режиме, так и по прогнозированию онлайн-конверсий.

Преимущества и проблемы прогнозирования намерений в виде вопросов и ответов

По сравнению с традиционной многоклассовой классификацией, настройка вопросов и ответов делает маркировку данных намного более управляемой. Мы можем постоянно улучшать дизайн анкеты и гибко объединять вопросы из разных размеров, под разными углами или с избыточностью.

Одна из самых больших проблем применения машинного обучения в реальных задачах - отсутствие высококачественных данных для обучения. С точки зрения простого обучения, установка вопросов и ответов с одним выбором позволяет нам встроить в модель множество возможностей, даже с разреженными данными обучения. Эта настройка обучает модель кодированию информации в пользовательском сообщении, вопросе и ответе. Модель также может учиться на связанных вопросах из других областей. По этой причине он способен понимать как вопросы в обучающих этикетках, так и некоторые недавно созданные, невидимые вопросы.

Недостатком этой настройки является то, что она оказывает большое давление на задержку обслуживания. Например, если мы хотим использовать модель, чтобы ответить на пять вопросов, а затем предпринять действия на основе пяти вопросов, мы должны запустить модель пять раз. Позже в этом посте мы обсудим, как уменьшить задержку модели, в том числе с использованием графического процессора.

Разработка и реализация модели

Мы используем преобразователи автоэнкодеров в качестве модельной архитектуры. В качестве основы мы протестировали всевозможные модели. Результаты показаны ниже:

В большинстве случаев лучше всего работает Роберта. Однако производительность Roberta-Base и Roberta-large варьируется в зависимости от масштаба обучающих лейблов. В нашем случае с онлайн-продуктом, где у нас около 20 тысяч этикеток, модель Roberta-large показала наилучшие характеристики и является моделью, которую мы развернули в производстве. Однако с параметрами 335M очень сложно запустить эту модель в режиме онлайн с заданным бюджетом задержки.

Чтобы улучшить производительность этой модели, мы использовали три ключевых метода:

  • Предварительное обучение нашей модели трансформатора с трансферным обучением;
  • Перевод обучающих этикеток для использования в многоязычной модели; а также
  • Включение многооборотных предсказаний намерений.

Предварительная подготовка

Возможно, наиболее важным последним достижением в области глубокого обучения является трансферное обучение и предварительное обучение. Он доминирует в большинстве современных моделей практически во всех областях НЛП, компьютерного зрения (CV) и автоматического распознавания речи (ASR).

Мы много экспериментировали с различными методами предварительного обучения и обнаружили, что два метода предварительного обучения особенно эффективны для повышения производительности модели:

  • Предварительное обучение модели языка без учителя в домене (MLM): на основе разговоров пользователей с нашей платформой обслуживания клиентов, описаний листингов и справочных статей мы создаем 1,08 ГБ (152 млн словарных токенов) ) Самостоятельное обучение. Этот корпус содержит 14 языков, из которых 56% - на английском. Как показывают результаты эксперимента на рисунке 7, предварительное обучение MLM в домене помогает повысить производительность модели для наших задач.
  • Предварительная настройка междоменной задачи Finetune: Предварительное обучение модели преобразователя на основе междоменного набора данных часто бывает полезным для многих задач. Это также эффективно для повышения точности обнаружения намерений в наших сценариях использования. Результаты экспериментов представлены на рисунках 8 и 9.

Многие сложные случаи в нашей проблеме понимания намерений требуют, чтобы модель обладала некоторыми логическими способностями. Подобно находке в общедоступном наборе логических рассуждений в Yu et al. (2020) предварительное обучение на наборе данных RACE помогает максимально повысить производительность.

Многоязычная модель

Служба поддержки Airbnb обслуживает пользователей со всего мира и в настоящее время поддерживает 14 языков. На основные неанглийские языки, включая французский, испанский, немецкий и португальский, приходится около 30% запросов. Поскольку наша модель ориентирована на пользователей, которые говорят на всех языках, но помеченные данные в основном на английском, мы использовали переведенный набор данных аннотаций и многоязычную модель XLM-RoBERTa, чтобы повысить производительность модели на всех языках.

Перевод меток обучения на другие языки - это метод неконтролируемого увеличения данных, который доказал свою эффективность во многих случаях обучения глубокому обучению (Xie et al., 2020). Мы переводим маркированный корпус обучения английскому языку, а также вопросы и ответы с маркировкой на другие популярные языки и включаем их в данные обучения для обучения модели XLM-RoBERTa.

Мы также попробовали обучить одноязычные модели переведенному тексту для сравнения на основе общедоступных предварительно обученных одноязычных моделей. Результаты показывают, что многоязычные модели, обученные на переведенных наборах данных, значительно превосходят набор обучающих данных только на английском языке. Производительность модели сравнима с одноязычными моделями, обученными с помощью переведенных наборов данных аннотаций.

Включение многооборотного прогнозирования

Когда пользователь приходит к чат-боту с запросом взаимной отмены, мы извлекаем все текстовые последовательности из предыдущих разговоров пользователя и объединяем текстовые последовательности предыдущих сообщений и текущего сообщения запроса вместе в качестве ввода новой текстовой последовательности для модели преобразователя. Это работает как модуль отслеживания состояния диалогов (Gao et al., 2019), который включает сигналы от прошлых взаимодействий пользователя, чтобы лучше понять намерения пользователя. Мы экспериментировали с двумя автономными подходами, чтобы лучше использовать этот сигнал: 1) добавление последних N раундов сообщений в качестве дополнительных функций к текущей модели и 2) вычисление многооборотных предсказаний намерений для каждого порогового значения сообщения и добавление максимальной оценки намерений в нисходящий поток. модель.

Одна из проблем заключается в том, что вычислительная сложность моделей преобразователей составляет O (n⁴) длины последовательности, включая все предыдущие преобразования. Сложность делает невозможным вывод онлайн в режиме реального времени. Чтобы решить эту проблему, мы заранее обрабатываем исторический разговор в асинхронном режиме в автономном режиме и сохраняем результаты, полученные до компьютера. Во время онлайн-обслуживания модель напрямую запрашивает предварительно вычисленные оценки, связанные с пользователем.

Онлайн-обслуживание

Развертывание моделей машинного обучения в Интернете сопряжено с несколькими серьезными проблемами, которые необходимо решать иначе, чем в офлайновом мире.

Обслуживание графического процессора онлайн-вывода

Одной из проблем онлайн-обслуживания является задержка модели в производстве. Мы предприняли два ключевых шага для решения требований к задержке: 1) включение обслуживания графического процессора и 2) использование обучения передачи. Подобно обсуждению в разделе выше, методы передачи обучения, такие как модель учитель-ученик, используются для уменьшения объема вычислений, необходимых для онлайн-вывода. В этом разделе мы в основном сосредоточимся на том, как обслуживание GPU помогло нам решить эту проблему.

Для поддержки вывода графического процессора мы экспериментировали с автономным тестом на моделях трансформаторов с параметрами 282M на трех разных типах экземпляров - g4dn.xlarge, p3.2xlarge и r5.2xlarge. На рисунке 12 показаны результаты задержки для этих различных типов инстансов. Общую тенденцию задержки между процессором и графическим процессором по мере увеличения длины наших входных сообщений можно увидеть на рисунке 13. Переход на обслуживание с помощью графического процессора оказывает значительное влияние на задержку в сети и является более экономичным.

Результаты нашего более позднего онлайн-эксперимента (рис. 14) также показывают улучшение задержки при переходе на вывод графического процессора на моделях трансформаторов. При ~ 1,1 млрд параметров и средней длине входного сообщения 100 слов мы смогли достичь ~ 60 мс на p95, что в 3 раза быстрее при одиночном преобразовании и в 5 раз быстрее при пакетном преобразовании.

Переход на графический процессор не только улучшает задержку, но и позволяет нам выполнять оценку нескольких моделей параллельно. Мы используем платформу PyTorch, которая имеет встроенную поддержку неблокирующего скоринга модели для лучшей масштабируемости.

Контекстный бандит и обучение с подкреплением

Вторая проблема в онлайн-обслуживании - адаптировать и оптимизировать модели машинного обучения на основе онлайн-поведения новых пользователей. Как мы описали в предыдущих разделах, данные для обучения исходной модели собираются на основе истории взаимодействия пользователя в потоке продуктов до развертывания модели. После развертывания модели пользователи взаимодействуют с системой совершенно иначе, чем при сборе обучающих данных. Если ежедневный трафик достаточно велик, мы всегда можем переназначить новые данные и обновить модель, используя новые данные, отражающие обновленное поведение пользователя, или напрямую выполнить многомерное тестирование N политик. Однако объем трафика чат-ботов CS от Airbnb относительно невелик по сравнению с другими системами машинного обучения, такими как поисковый рейтинг. Чтобы увидеть эффект от любого изменения модели (либо переобученная модель с использованием новых данных, либо изменение гиперпараметров, потребуется очень много времени.

Чтобы решить проблему низкого объема трафика, мы используем контекстное обучение с подкреплением на основе бандитов (Bietti et al., 2019; Agarwal et al., 2017), чтобы выбрать лучшую модель и самые подходящие пороги. Контекстное обучение с подкреплением исследует все альтернативные проблемы, максимизируя вознаграждение и сводя к минимуму сожаления. Это позволяет нам учиться на новом поведении, динамически балансируя исследование и эксплуатацию.

Мы рассматриваем эту проблему с помощью трех различных действий в продукте:

  • a0: Пользователь не направлен через поток взаимной отмены
  • a1: пользователь перенаправляется на интерфейс взаимной отмены для гостей, которые уже договорились с хозяином о возмещении.
  • a2: Пользователь направляется к пользовательскому интерфейсу взаимной отмены в случаях, когда неясно, достигли ли хост и гость взаимного согласия.

Наша функция вознаграждения - это скорость ввода потока взаимной отмены и скорость принятия. Вознаграждение на временном шаге 𝑡 за любое данное действие может быть сформулировано как:

где c означает, что поток взаимной отмены не введен / не принят.

Затем мы использовали жадный эпсилон в качестве нашей первой стратегии исследования. Если он находится в режиме исследования, мы вычисляем вероятности для каждого действия на основе предпочтений политик и выбираем их на основе вероятностей. Если он находится в режиме эксплуатации, мы выбираем лучшую политику. Мы вычисляем пороги моделей на основе набора записанных (x, a, r, p) кортежей. Мы используем самонормализованную систему оценки обратной склонности (IPS) (Swaminathan and Joachims 2015) для оценки каждой политики:

В производственной среде этот подход успешно помог нам изучить множество различных моделей и вариантов параметров и наилучшим образом использовать ограниченный онлайн-трафик.

Заключение

В этом посте мы рассказали, как мы используем самые современные модели машинного обучения и искусственного интеллекта для создания продуктов поддержки, которые лучше соответствуют потребностям наших гостей и хозяев. Мы описали, как мы используем модель на основе вопросов и ответов с одним выбором, крупномасштабное предварительное обучение, многоязычные модели, многооборотное отслеживание состояния диалогов и обслуживание графического процессора, а также успешно справились с техническими проблемами.

Заинтересованы в решении проблем в области машинного обучения и искусственного интеллекта?

Мы приглашаем вас посетить нашу страницу вакансий или подать заявку на следующие возможности:

Штатный архитектор данных, платформа поддержки сообщества

Штатный инженер-программист - платформа моделирования машинного обучения

Инженер по машинному обучению, поисковый рейтинг

Благодарности

Спасибо Кэсси Цао, Хао Ван, Бо Цзэн, Бен Ма, Уэйну Чжану, Мариэль Янг, Шахаф Абиле, Пратику Шаху, Брайану Вангу, Хванхах Джонгу, Эми Го, Вите Папернов, Кортни Нам, Ализе Хохштайн, Майку Хинкли, Юшуанг Донгу, Яну Кастору, Айви Куи, Люсии Чиччио за большой вклад в разработку рабочего процесса взаимной отмены, анализ ERF и запуск продукта. Особая благодарность Алексу Денгу за помощь в работе с контекстным бандитом и обучением с подкреплением; многие дизайны изначально принадлежали Алексу. Мы также хотели бы поблагодарить Атула Ктала, Бахадора Нураеи, Шаовей Су, Альфредо Луке за поддержку инфраструктуры машинного обучения при выводе графического процессора. Кроме того, мы хотели бы поблагодарить разработчиков ML-библиотек с открытым исходным кодом, таких как PyTorch и HuggingFace Transformers, которые принесли нам большую пользу. Наконец, мы хотим поблагодарить Ари Балога, Тину Су, Энди Ясутакэ и Джой Чжан за поддержку руководства в использовании машинного обучения на платформах поддержки клиентов.

Использованная литература:

  1. Занг X, Растоги А., Сункара С., Гупта Р., Чжан Дж., Чен Дж. (2020) MultiWOZ 2.2: набор данных диалога с дополнительными исправлениями аннотаций и базовыми линиями отслеживания состояния. CoRR abs / 2007.12720
  2. Цзян И, Ву С, Гонг Дж, Ченг И, Мэн П, Лин У, Чен З, Ли М. (2020) Улучшение понимания машинного чтения с помощью принятия решений с одним выбором и трансферного обучения. CoRR abs / 2011.03292
  3. Хашаби Д., Мин С., Хот Т., Сабхарвал А., Тафьорд О, Кларк П., Хаджиширзи Х. (2020) UnifiedQA: пересечение границ формата с единой системой обеспечения качества. В: Cohn T, He Y, Liu Y (eds) Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: Findings, EMNLP 2020, Online Event, 16–20 ноября 2020. Association for Computational Linguistics, pp 1896–1907
  4. Yu W, Jiang Z, Dong Y, Feng J (2020) ReClor: Набор данных для понимания прочитанного, требующий логических рассуждений. В: 8-я Международная конференция по образовательным представительствам, ICLR 2020, Аддис-Абеба, Эфиопия, 26–30 апреля 2020 г. OpenReview.net
  5. Мадотто А., Лю З., Линь З., Фунг П. (2020). Языковые модели как малоизвестный ученик для диалоговых систем, ориентированных на задачи. CoRR abs / 2008.06239
  6. Xie Q, Dai Z, Hovy EH, Luong T, Le Q (2020) Неконтролируемое расширение данных для обучения согласованности. In: Larochelle H, Ranzato M, Hadsell R, Balcan M-F, Lin H-T (eds) Достижения в системах обработки нейронной информации 33: Ежегодная конференция по системам обработки нейронной информации 2020, NeurIPS 2020, 6–12 декабря 2020 г., виртуальный
  7. Бьетти, Альберто, Алех Агарвал и Джон Лэнгфорд. Контекстуальный бандит. Microsoft Research. 21 марта 2019
  8. Агарвал, Алех, Сара Берд, Маркус Козович, Луонг Хоанг, Джон Лэнгфорд, Стивен Ли, Джиаджи Ли, Дэн Меламед, Гал Ошри, Освальдо Рибас, Сиддхартха Сен и Алекс Сливкинс. Принятие контекстных решений с низким техническим долгом. ArXiv.org. 09 мая 2017
  9. Сваминатан А., Иоахим Т. (2015) Самонормализованная оценка для контрфактического обучения. В: Кортес С., Лоуренс Н.Д., Ли Д.Д., Сугияма М., Гарнетт Р. (ред.) Достижения в системах обработки нейронной информации 28: Ежегодная конференция по системам обработки нейронной информации, 2015 г., 7–12 декабря 2015 г., Монреаль, Квебек, Канада. стр. 3231–3239
  10. Гао С., Сетхи А., Агарвал С., Чунг Т., Хаккани-Тюр Д. (2019) Отслеживание состояния диалога: подход к пониманию нейронного чтения. В: Nakamura S, Gasic M, Zuckerman I., Skantze G, Nakano M, Papangelis A, Ultes S, Yoshino K (eds) Proceedings of 20 Annual SIGdial Meeting on Discourse and Dialogue, SIGdial 2019, Стокгольм, Швеция, 11 сентября - 13, 2019. Association for Computational Linguistics, pp. 264–273.

Все названия продуктов, логотипы и бренды являются собственностью их владельцев. Все названия компаний, продуктов и услуг, используемые на этом веб-сайте, используются только в целях идентификации. Использование этих названий, логотипов и торговых марок не означает одобрения