Использование фурхата и расы для помощи, когда вы забываете слово в середине предложения: проект студенческой группы

Вы можете прочитать мою…

Вступление

Каждый из нас будет периодически пытаться подобрать правильное слово для данного момента, делая паузу в середине предложения, чтобы попытаться запомнить его. Например, забвение названия места вызвало такие колебания:

«Он был в той кофейне на углу под названием ммм… Пепперс»

Мы все можем относиться к этому, но по мере того, как познавательная способность снижается, эти паузы становятся более частыми и более выраженными. Как люди, мы адаптируемся и будем терпеливыми, давая кому-то время подумать - возможно, даже предложим завершение, как показано здесь:

A: «У меня есть фрукты и…»
B: «овощи?»
A: «Да, их. Мне нужен кофе.

Голосовые помощники (Amazon Alexa, Google Assistant и т. Д.) Должны стать более интерактивными, чтобы делать это. Голосовые помощники часто принимают эти паузы за конец предложения, разочарованно отвечая что-то вроде: «Извините, я не совсем понял это».

Доступность голосовых помощников сейчас как никогда важна, поэтому группа студентов изучает эту проблему с помощью Лаборатории взаимодействия в Университете Хериот-Ватт.

Мы планировали провести оценку пользователей с участием пожилых людей, но это не удалось из-за коронавируса. Мы решили сделать небольшое пожертвование в местную благотворительную организацию The Open Door (для нас), цель которой - уменьшить чувство одиночества, оказывая поддержку пожилым людям и тем, кто нуждается в дополнительной поддержке. В течение этого периода изоляции они разговаривали по телефону, чтобы дружелюбно поговорить с теми, кто в этом нуждался. Если хотите, можете прочитать историю Open Door.

Команда

Этот проект был спланирован, разработан и реализован в течение 12 недель в рамках курса под названием Разговорные агенты и обработка разговорной речи. Если это класс или область, которая вас интересует, взгляните на Магистр разговорного искусственного интеллекта в Heriot-Watt.

Студенты:

Пабло Лопес Сантори (LinkedIn)
Артидеви Балавиньеш (ab237 на hw.ac.uk)
Мериам Муджахид
Сунбул М. Ахмад (sma20 на hw.ac.uk)
Сету Лекшми (LinkedIn)
Андеол Жину

Руководители:

Angus Addlesee (Medium, Twitter, LinkedIn)
Verena Rieser (Twitter, LinkedIn)
Оливер Лемон (Twitter, LinkedIn)

Чего мы достигли: разработка нашей системы

TL; DR: при взаимодействии с интеллектуальными устройствами в гостиной наша система может обнаруживать паузу в середине предложения и предлагать, что может спрашивать пользователь. При правильном прогнозе пользователь может подтвердить свой выбор только своим голосом. Затем наша система объединяет полный запрос пользователя и завершает действие. Мы воплотили нашу систему в Фурхат, а Алана использовали для обработки полных или выходящих за рамки высказываний.

Данные

Голосовые помощники в доме часто используются для взаимодействия с устройствами умного дома. Эти устройства могут помочь людям жить в собственных домах дольше и более независимо. По этой причине их даже рекомендуют многие благотворительные организации (разумеется, в индивидуальном порядке).

Чтобы проанализировать, с какими устройствами люди взаимодействуют чаще всего, мы исследовали набор данных Fluent Speech Commands. Он содержит более 30 000 аннотированных команд, произнесенных (для управления умным домом) 97 динамиками. Исходя из полученных данных, мы пришли к выводу, что гостиная была хорошей отправной точкой. Мы выбрали четыре устройства: свет, отопление, музыку и телевизор. В результате только 19,8% команд в наборе данных были сочтены выходящими за рамки.

Примеры разговоров

Чтобы проиллюстрировать взаимодействие с нашими целями, мы представили пару фиктивных диалогов. Еще несколько примеров в действии в 1:58 вы можете посмотреть на видео ниже.

Человек: «Можете ли вы включить мою…»
Система: «Включите обогреватель или музыку?»
Человек: «Ах, моя музыка!»
Система: «Нет проблем, у меня есть включил твою музыку. "

В приведенном выше примере система обнаруживает длинную паузу и предлагает два прогноза. Затем пользователь выбирает правильный прогноз, присвоив устройству имя. Наконец, система объединяет выбор «музыки» с предыдущим запросом «включить», чтобы «включить музыку».

Человек: «Пожалуйста, включите…»
Система: «Свет, отопление, телевизор?»
Человек: «Второй».
Система: «Хорошо, я включил у вас отопление. ”

В этом примере было сделано три прогноза, и пользователь численно выбрал элемент. Затем намерение «включить» и выбор «обогрева» были объединены, чтобы выполнить действие «включить обогрев».

Вы можете увидеть еще три подобных примера, работающих в этом видео (в 1:58).

Виртуальный фурхат

Люди едут на большие расстояния, чтобы встречаться, а не просто звонить. Есть аналогичная разница между разговором с Siri или голосовым помощником, воплощенным в роботе. Во время разговора по телефону вы упускаете многие сигналы (кивки, пристальный взгляд, приподнятие бровей и т. Д.), Которые мы используем для повседневного общения.

Современные голосовые системы не могут отображать мимику, привлекать внимание через зрительный контакт или шевелить губами. - Начало воспроизведения естественного разговора в реальном времени

По этим причинам мы интегрировали нашу систему с Furhat, чтобы сделать взаимодействие более естественным и увлекательным. Мы планировали использовать физического робота Furhat, но перешли на виртуальный Furhat, когда университет закрылся.

Получение более технических

На видео выше архитектура системы представлена в 0:59. Это выглядит так:

Наша система состоит из следующих компонентов:

Распознавание речи (мы использовали Furhat) - преобразует голос пользователя в текст.
Детектор неполного высказывания (LSTM) - как следует из названия, он обрабатывает текст, чтобы определить, является ли высказывание полным или нет. Набор данных Fluent Speech Commands содержал много похожих высказываний, поэтому мы определили ключевые точки разделения и обучили LSTM на разделенных высказываниях.
Алана - обрабатывает любые законченные высказывания. Алана - это разговорный агент с открытым доменом, поэтому он может разговаривать практически о чем угодно.
Завершение высказывания (Раса) - получает неполное высказывание пользователя и предсказывает, что пользователь хочет сказать. Эти прогнозы фильтруются на предмет правдоподобия и преобразуются в ответы на естественном языке, основанные на правилах.
Преобразование текста в речь (Furhat) - преобразует это предсказание естественного языка в аудио и запрашивает пользователя. Ответ пользователя преобразуется в текст.
Диспетчер диалогов (частично Rasa) - получает ответ пользователя и управляет взаимодействием. Во-первых, пользователь либо выбирает устройство (давая ему имя или выбирая его из списка, например, «последнее»), либо указывает, что прогнозы были неверными. Если неверно, состояние сбрасывается, и наша система сообщает пользователю что-то дружелюбное. Если выбор сделан, выбранное устройство и намерение из модели завершения высказывания объединяются. Результатом является полностью решенное намерение пользователя, такое как «выключить телевизор».
Интерфейс (на основе правил) - получает намерение пользователя и отображает действия, предпринятые в виртуальной гостиной. Подтверждение предпринятых действий также генерируется, преобразуется в звук и произносится вслух Furhat.

Будущая работа

Как упоминалось в начале этой статьи, мы запланировали более глубокую оценку, которая, к сожалению, была отложена из-за коронавируса. Несмотря на это, мы знаем о многих способах улучшения нашей системы:

Дополнительные данные. Набор данных Fluent Speech Commands содержит множество высказываний, но они не особенно разнообразны. Есть много повторяющихся высказываний и несколько команд, которые не имеют прямого отношения к интеллектуальным устройствам, например принеси мне мою обувь. Включение более широкого и разнообразного набора команд может помочь улучшить некоторые аспекты системы.
Расширение платформ и доменов устройств. Мы работаем только с ограниченным количеством устройств в гостиной. С дополнительными данными мы могли бы расширить возможности нашей системы.
Улучшите обнаружение неполных высказываний. Обученный нами LSTM имел точность 99,5% на наборе данных Fluent Speech Commands. Однако, как упоминалось выше, этот набор данных не очень разнообразен. Обучение с дополнительными данными сделало бы эту модель более устойчивой к реальным высказываниям пользователя.
Интеграция с более сложным прогнозом конца очереди (EOT). Наша система полагается на внешний прогноз конца очереди и, следовательно, по-прежнему является пошаговой. Чтобы значительно улучшить плавность разговора, наша система должна быть полностью интегрирована с усовершенствованной моделью прогнозирования EOT.
Выполните повторное ранжирование. Из-за нехватки времени нам не удалось выполнить наш план по переоценке рейтинга. Это отфильтрует и переупорядочит прогнозы на основе контекстной информации. Например, невозможно прогнозировать активацию света, когда все огни уже включены. Используя компьютерное зрение и встроенную камеру Фурхата, мы могли даже расставить приоритеты для объекта, на который смотрит пользователь.

Примечание редактора. Heartbeat - это онлайн-публикация и сообщество, созданное авторами и посвященное предоставлению первоклассных образовательных ресурсов для специалистов по науке о данных, машинному обучению и глубокому обучению. Мы стремимся поддерживать и вдохновлять разработчиков и инженеров из всех слоев общества.

Являясь независимой редакцией, Heartbeat спонсируется и публикуется Comet, платформой MLOps, которая позволяет специалистам по данным и группам машинного обучения отслеживать, сравнивать, объяснять и оптимизировать свои эксперименты. Мы платим участникам и не продаем рекламу.

Если вы хотите внести свой вклад, отправляйтесь на наш призыв к участникам. Вы также можете подписаться на наши еженедельные информационные бюллетени (Deep Learning Weekly и Comet Newsletter), присоединиться к нам в » «Slack и подписаться на Comet в Twitter и LinkedIn для получения ресурсов, событий и гораздо больше, что поможет вам быстрее и лучше строить лучшие модели машинного обучения.