Голосовые роботы и важность скорости лица

Проблемы при развертывании и управлении речевыми интерфейсами

Введение

Я много писал о голосовых ботах с точки зрения:

"Дизайн"
Измерение успеха
Преобразование чат-бота в голосового бота
И защищенные голосовые программные и аппаратные среды, такие как NVIDIA Riva.

Тем не менее, голосовые роботы или речевые интерфейсы особенно трудно настроить правильно из-за синхронного характера взаимодействия. Добавьте к этому дополнительные движущиеся части автоматического распознавания речи (ASR), управления частотой ошибок в словах (WER) и синтеза речи.

Все эти элементы подробно обсуждаются в статьях, перечисленных в футере.

В этой статье я хотел бы обсудить концепцию Face Speed и рассмотреть случаи, когда Face Speed не всегда возможна, например, телефонный звонок. .

Жилье

Немногие отчеты оказали такое глубокое влияние на мой мыслительный процесс, как отчет 2015 года от Fjord Design & Innovation под названием Эра живых услуг.

Это открыло мне глаза на идею пользовательских интерфейсов как живого сервиса, который постоянно адаптируется к пользователю.

Думать о сервисах как об окружающих и существующих в пользовательской среде, а также об оркестровке сервисов на основе движений и поведения пользователя. Все это время всплывают нужные данные в нужное время через правильный носитель или интерфейс.

Речь или чат — это лишь два из множества пользовательских интерфейсов. Другие интерфейсы или методы ввода включают жесты, выражения лица, пользовательские процедуры и поведение и т. д.

Все эти элементы, упомянутые выше, составляют постоянно меняющийся и адаптирующийся сервис или интерфейс, управляемый окружающей средой.

Например, мультимодальный аспект NVIDIA Riva лучше всего понимается в контексте доступных пользовательских интерфейсов NVIDIA Riva:

ASR (автоматическое распознавание речи)
STT (речь в текст)
NLU (понимание естественного языка)

А точнее…

Распознавание жестов
Обнаружение активности губ
Обнаружение объекта
Обнаружение взгляда
Обнаружение настроений

Усовершенствованный и действительно человеческий речевой интерфейс.

Скорость лица

Мы привыкли, что выражения лица являются частью наших разговоров. Мы интуитивно читаем лица друг друга во время разговора.

Поскольку мы делаем интерфейсы более похожими на людей, пользователи будут ожидать, что они будут синхронными и мгновенными. Пользователи будут менее терпимы к задержкам и компьютеру, который думает.

Мы, пользователи, ожидаем, что диалоговые интерфейсы будут отвечать с быстрой скоростью.

Например, дизайнеры антропоморфизируют пользовательские интерфейсы, делая их более человеческими и похожими на диалоги. Однако подразумевается, что пользователь ожидает от интерфейса, чтобы он имел человеческие характеристики скорости лица .

Здесь есть две проблемы… первая заключается в том, что пользователю предоставляется простой и естественный интерфейс, в котором он чувствует себя как дома. Интерфейс упрощен за счет устранения сложности. Эта сложность должна быть приспособлена и размещена где-то еще. А в случае диалоговых систем сложность заключается в пользовательском интерфейсе. Следовательно, снятие сложности с пользователя означает добавление сложности в разговорный дизайн и разработку.

Вторая проблема с графическим интерфейсом заключается в том, что чем больше пользовательских возможностей добавляется графически, тем хуже становится интерфейс. Таким образом, с графическим интерфейсом меньше значит лучше, когда дело доходит до дизайна.

Напротив, с голосовым или диалоговым интерфейсом чем сложнее, тем лучше, потому что возможности дизайна диалога невидимы с точки зрения пользователя.

Наконец…

Face Speed состоит из двух компонентов: скорости доставки данных. А также разговорные возможности скорости лица, определения того, кто говорит, чтения жестов, выражений и многого другого.

NVIDIA Riva хочет решить эту проблему, но для голосовых ботов через телефонный звонок это останется проблемой. Принятие очереди и вмешательство — две самые большие проблемы на этом этапе.

Ответ может состоять в том, чтобы не пытаться сделать разговор слишком естественным, а иметь подсказку, что-то, что служит сигналом или предложением по очереди.

Кобус Грейлинг — город Йоханнесбург, Гаутенг, Южная Африка | Профессиональный профиль | LinkedIn
Раса Герой. НЛП/НЛУ, чат-боты, голос, диалоговый пользовательский интерфейс/UX, CX Designer, разработчик, вездесущие пользовательские интерфейсы…www.linkedin.com

Кобус Грейлинг – Medium
Читайте записи Кобуса Грейлинга на Medium. НЛП/НЛУ, чат-боты, голос, диалоговый пользовательский интерфейс/UX, дизайнер CX, разработчик…cobusgreyling.medium.com

Сообщество Eliza Language Technology — языковые технологии: разговорный ИИ, НЛП/НЛП, CCAI…
ELIZA — место, где объединяются энтузиасты языковых технологий.www.eliza.community

Прочитайте это, прежде чем преобразовывать чат-бота в голосового
Существуют существенные различия между текстовым и голосовым интерфейсамиcobusgreyling.medium.com

Дизайн отличается для голосовых ботов и чат-ботов
… и почему вы не можете просто включить голосовое управление своим чат-ботомcobusgreyling.medium.com

Измерение успеха чат-бота и голосового бота
И почему показатели должны контролировать друг другаcobusgreyling.medium.com

NVIDIA Riva 2.0 теперь доступна
И как начать работу с NVIDIA Riva для сервисов диалогового ИИcobusgreyling.medium.com

Голосовые роботы и важность скорости лица