Голосовые роботы и важность скорости лица

Проблемы при развертывании и управлении речевыми интерфейсами

Введение

Я много писал о голосовых ботах с точки зрения:

Тем не менее, голосовые роботы или речевые интерфейсы особенно трудно настроить правильно из-за синхронного характера взаимодействия. Добавьте к этому дополнительные движущиеся части автоматического распознавания речи (ASR), управления частотой ошибок в словах (WER) и синтеза речи.

Все эти элементы подробно обсуждаются в статьях, перечисленных в футере.

В этой статье я хотел бы обсудить концепцию Face Speed и рассмотреть случаи, когда Face Speed не всегда возможна, например, телефонный звонок. .

Жилье

Немногие отчеты оказали такое глубокое влияние на мой мыслительный процесс, как отчет 2015 года от Fjord Design & Innovation под названием Эра живых услуг.

Это открыло мне глаза на идею пользовательских интерфейсов как живого сервиса, который постоянно адаптируется к пользователю.

Думать о сервисах как об окружающих и существующих в пользовательской среде, а также об оркестровке сервисов на основе движений и поведения пользователя. Все это время всплывают нужные данные в нужное время через правильный носитель или интерфейс.

Речь или чат — это лишь два из множества пользовательских интерфейсов. Другие интерфейсы или методы ввода включают жесты, выражения лица, пользовательские процедуры и поведение и т. д.

Все эти элементы, упомянутые выше, составляют постоянно меняющийся и адаптирующийся сервис или интерфейс, управляемый окружающей средой.

Например, мультимодальный аспект NVIDIA Riva лучше всего понимается в контексте доступных пользовательских интерфейсов NVIDIA Riva:

  • ASR (автоматическое распознавание речи)
  • STT (речь в текст)
  • NLU (понимание естественного языка)

А точнее…

  • Распознавание жестов
  • Обнаружение активности губ
  • Обнаружение объекта
  • Обнаружение взгляда
  • Обнаружение настроений

Усовершенствованный и действительно человеческий речевой интерфейс.

Скорость лица

Мы привыкли, что выражения лица являются частью наших разговоров. Мы интуитивно читаем лица друг друга во время разговора.

Поскольку мы делаем интерфейсы более похожими на людей, пользователи будут ожидать, что они будут синхронными и мгновенными. Пользователи будут менее терпимы к задержкам и компьютеру, который думает.

Мы, пользователи, ожидаем, что диалоговые интерфейсы будут отвечать с быстрой скоростью.

Например, дизайнеры антропоморфизируют пользовательские интерфейсы, делая их более человеческими и похожими на диалоги. Однако подразумевается, что пользователь ожидает от интерфейса, чтобы он имел человеческие характеристики скорости лица .

Здесь есть две проблемы… первая заключается в том, что пользователю предоставляется простой и естественный интерфейс, в котором он чувствует себя как дома. Интерфейс упрощен за счет устранения сложности. Эта сложность должна быть приспособлена и размещена где-то еще. А в случае диалоговых систем сложность заключается в пользовательском интерфейсе. Следовательно, снятие сложности с пользователя означает добавление сложности в разговорный дизайн и разработку.

Вторая проблема с графическим интерфейсом заключается в том, что чем больше пользовательских возможностей добавляется графически, тем хуже становится интерфейс. Таким образом, с графическим интерфейсом меньше значит лучше, когда дело доходит до дизайна.

Напротив, с голосовым или диалоговым интерфейсом чем сложнее, тем лучше, потому что возможности дизайна диалога невидимы с точки зрения пользователя.

Наконец…

Face Speed ​​состоит из двух компонентов: скорости доставки данных. А также разговорные возможности скорости лица, определения того, кто говорит, чтения жестов, выражений и многого другого.

NVIDIA Riva хочет решить эту проблему, но для голосовых ботов через телефонный звонок это останется проблемой. Принятие очереди и вмешательство — две самые большие проблемы на этом этапе.

Ответ может состоять в том, чтобы не пытаться сделать разговор слишком естественным, а иметь подсказку, что-то, что служит сигналом или предложением по очереди.