Юзабилити: распознавание речи по сравнению с клавиатурой

Мы видим, что все больше и больше реализуется распознавание речи, и запрашиваются библиотеки, которые хорошо распознают речь. Какое обоснование (с точки зрения удобства использования) у него по сравнению с клавиатурой или клавиатурой? По каким причинам вы могли бы инвестировать в это развитие?

Для примера возьмем колл-центры. Несколько лет назад почти каждый операторский центр использовал IVR, который запрашивал ключ для меню. Теперь мы видим все больше и больше меню с подсказкой для произнесенного ключевого слова и / или нажатой клавиатуры: «скажите счет-фактуру или нажмите 1, чтобы просмотреть счет-фактуру». Или мы видим то же самое в телефонном справочнике компаний: «пожалуйста, назовите имя человека, с которым вы пытаетесь связаться» ... «Франк Лойд» ... «Вы сказали Джек Фрейд? Пожалуйста, скажите« да », если хотите чтобы связаться с этим человеком или сказать "нет", чтобы повторить попытку ".

Думаю, это плюс, когда вы находитесь в машине, не держа телефон в руках, но стоит ли это дополнительное время ожидания? Более длительное взаимодействие для всех вариантов выбора, более длительное время подсказки при попытке проанализировать, было ли что-то сказано, и так далее? Кроме того, надежность, безусловно, лучше, чем была, но иногда это больше похоже на игрушку, которую кто-то решил подключить к системе, чтобы она могла казаться футуристической.

Есть ли опыт разработки IVR или программного обеспечения, которое использовало (или не использовало) распознавание речи?

Спасибо!


person lpfavreau    schedule 22.05.2009    source источник


Ответы (4)


Какое обоснование (с точки зрения удобства использования) у него по сравнению с клавиатурой или клавиатурой?

Юзабилити - это очень широкий термин. Если бы я попытался ввести свой адрес с помощью сенсорной панели, это было бы не очень удобно. Некоторые утверждают, что использование речевого движка с общим успехом 70-80% тоже не очень удобно. Как указано в других сообщениях, ввод в режиме громкой связи может быть намного проще для тех, кто пользуется мобильным телефоном. Однако использование слов вместо числового ввода на самом деле может быть менее интуитивно понятным, чем телефон с тональным набором, если тема для звонящего несколько чужда. Абонент, слышащий не очень знакомые термины и фразы, не может запомнить их за 10–30 секунд подсказки, но может навести пальцем на наиболее звучащий вариант или запомнить порядок выбора.

По каким причинам вы могли бы инвестировать в это развитие?

Это странный вопрос. Обычно решение использовать речь в среде IVR не определяется мировоззрением разработчиков. Если у вас нет конкретного требования, которое действительно требует речи, вы почти всегда снижаете общие показатели успеха. Речь обычно является фактором корпоративного имиджа ... или наличия новейшей технологической игрушки.

Думаю, это плюс, когда вы находитесь в машине, не держа телефон в руках, но стоит ли это дополнительное время ожидания?

В наши дни задержки распознавания речи не очень высоки при использовании современных ASR. В большинстве случаев ввод обрабатывается параллельно с речью, а время между окончанием распознавания речи составляет от 0,5 до 1 с. Имейте в виду, что многие IVR затем должны выполнять поиск данных после некоторых вводов, и это может выглядеть как более медленная система. Нормальные входные значения, превышающие 1 с, обычно являются признаком недостаточной мощности развертывания.

Возможно, при первоначальной реализации он не был недооценен, но благодаря усилиям по настройке вы принимаете много решений о производительности и точности. Чтобы получить следующие 0,1%, ресурсы могут быть вытеснены за пределы того, что они должны быть на пике.

Кроме того, надежность, безусловно, лучше, чем была, но иногда это больше похоже на игрушку, которую кто-то решил подключить к системе, чтобы она могла казаться футуристической.

В общем да. Что касается надежности, вам нужно действительно взглянуть на общие цифры, чтобы получить представление о системе. Это статистическая битва, в которой отдельные лица не очень важны (если только они не обладают титулом VP или выше). Путем оптимизации ввода (смещение подсказок), использования ресурсов и других параметров настройки восстановления речи вы пытаетесь добиться максимальной точности. Для базовых ответов на естественном языке вы можете получить верхние 90-е годы. Однако ваш общий уровень успеха намного ниже. Представьте, что все 5 запросов на 98% (на самом деле, у вас есть группа 99, а затем несколько середины 90-х или немного ниже): .98 * .98 * .98 * .98 * .98 = 90%. Это означает, что 1 из 10 терпит неудачу. Это до путаницы вызывающего абонента и бизнес-правил. Ввод DTMF обычно очень близок к 100%, даже после нескольких вводов.

Есть ли опыт разработки IVR или программного обеспечения, которое использовало (или не использовало) распознавание речи? да. Но я подозреваю, что вам действительно нужен не этот вопрос. Как специалист в области технологий, это обычно не ваше решение, и вы имеете ограниченное влияние на него. Если вы действительно ищете плюсы / минусы выступления:

Плюсы:

  • Круто / модно (обратите внимание, одной речи недостаточно. Вам нужен отличный VUI и голосовой талант)
  • Подходит для очень мобильной публики, избегающей наушников. Предполагается, что будущее за сочетанием речи и тактильного ввода. Может быть. Вероятно, это не будет со стороны рынка IVR.
  • Подходит для задач, которые нельзя выполнить с помощью DTMF. Обратите внимание, что многие из этих задач также имеют низкую вероятность успеха в речи. Стоимость (по сравнению с людьми) обычно является движущим фактором, а не удобство использования. Переадресация вызова в ящик голосовой почты для таких вещей, как изменение адреса, может быть очень рентабельной.

Минусы:

  • Дорогой в разработке, развертывании и обслуживании. Добавление новых вариантов может существенно повлиять на показатели успеха, если вы не будете осторожны. Всегда отслеживайте влияние изменений.
  • Часто разворачивается ненадлежащим образом. Например, просто произнесите свой числовой выбор в меню. Это почти часто тот случай, когда мы хотим, чтобы речь была прохладной, но мы не можем позволить себе то, что действительно требуется для ее достижения.
  • Показатели успешности будут ниже, и, следовательно, расходы колл-центра будут выше.
  • Ошибки, как правило, связаны с конкретными подсказками и отдельными абонентами. Абонент, у которого регулярно возникают проблемы с вашей системой, будет очень недоволен вами.
  • Звонящие злятся, когда их не понимают. Ваша цель - выявить часть своей клиентской базы и действительно рассердить ее?
person Jim Rush    schedule 17.08.2009
comment
Отличный ответ. Спасибо. Что касается дополнительного времени ожидания, я в основном имел в виду более длинные подсказки, которые часто требуются для описания того, как взаимодействовать с системой, а не время, необходимое системе для анализа голоса. Подсказки часто бывают такими: нажмите 1, чтобы получить доступ к своим счетам, или громко и четко произнесите «счета-фактуры», нажмите 2, чтобы поговорить с кем-нибудь или сказать «невозможно», бормоча. - person lpfavreau; 21.08.2009

Я думаю, что у распознавания речи, как и у любого метода ввода, есть свои плюсы и минусы.

Профи

  • Никакого обучения, мы говорим с самого раннего возраста.
  • Очень интуитивно понятный.
  • В телефоне нет необходимости постоянно снимать гарнитуру с уха.

Против

  • Более длительное время ожидания
  • Если качество звука плохое, требуется несколько попыток, чтобы сделать правильный выбор.
person Dmitri Farkov    schedule 22.05.2009
comment
Он также имеет ограничение, требующее индивидуального обучения пользователя для оптимизации производительности. Если у вас необычный акцент, обычные телефонные системы, с которыми вы сталкиваетесь, могут доставить вам неприятности. - person Steve S; 22.05.2009
comment
Мне нравится убирать гарнитуру из уха, но, с другой стороны, в большинстве систем вам нужно ввести хотя бы что-то на клавиатуре (ваш NIP, номер кредитной карты и т. Д.), А в хорошем IVR не должно быть больше, чем на 4 или 5 уровня? Не должно заставлять вас набирать слишком много. - person lpfavreau; 22.05.2009
comment
@Ipfavreau: Я встречал системы, в которых вы действительно произносили каждое число, хотя это, как правило, разочаровывает. - person Steve S; 22.05.2009
comment
@Steve S: И я думаю, мы тоже не говорим о проблемах безопасности. Пожалуйста, произнесите свой NIP вслух ... 9! 9! 4! 9 !. Спасибо, я и странно выглядящий парень, который подписан на вас, теперь могут получить доступ к своей учетной записи. ;-) - person lpfavreau; 22.05.2009
comment
Да, это определенно проблема. Обычно, когда я использую такую ​​систему, я могу найти уединенное место (мой дом или мою машину), но это, конечно, не способствует хорошей безопасности. - person Steve S; 22.05.2009
comment
Однажды у меня возникла проблема, когда моя полностью законная версия Vista решила запросить случайное подтверждение активации от Microsoft (что бессмысленно). Вся их автоматизированная система распознавания речи просила вас назвать код активации, номер за номером. Делать паузу после каждого числа и говорить вам следующее число ... Очень расстраивает. Я не уверен, что было хуже: система, которая меня едва понимала, или офшорная техподдержка, которая меня понимала еще меньше. - person Dmitri Farkov; 22.05.2009

В некоторых случаях требуется компания, которая занимается поворотными телефонами. Может показаться, что более затратно просто настроить систему распознавания вместо того и другого.

Распознавание голоса имеет гораздо больше накладных расходов, чем тональные сигналы. Если вы хотите добиться наилучших результатов, вам нужно постоянно настраивать приложение и обучать систему произношению нераспознаваемых слов. Вы также должны быть очень внимательны к тому, как вы запрашиваете пользователя с помощью распознавания голоса, иначе вы можете получить неожиданные ответы.

Общий тональный сигнал намного проще, поскольку существует только ограниченный набор возможных вариантов в любой момент времени.

Если ваше приложение достаточно прямолинейно, вы озвучиваете, что многие только усложняют его. Нажмите 2, чтобы выбрать другой язык.

person cwhite    schedule 23.05.2009

Распознавание речи - это определенно волна будущего в сочетании с технологией сенсорного экрана. В качестве примера я использую распознавание речи тазти. Доступен в версиях для XP и Vista. Поскольку платформа Microsoft с сенсорным экраном «Surface» работает на Vista, я уверен, что tazti будет работать с технологией сенсорного экрана. Когда я попробовал распознавание речи tazti, встроенные команды работали отлично. Также это позволяет мне создавать свои собственные речевые команды, и они тоже отлично работают. Голосовой поиск Google и Yahoo, Wikipedia Youtube и многих других поисковых систем отлично работает. Имеет также много других функций. Но у него нет диктовки. Я обнаружил, что исключаю 70% или более кликов, сгенерированных в Интернете ... может быть, больше. ПРИМЕЧАНИЕ: Tazti можно бесплатно загрузить с их веб-сайта.

person Community    schedule 24.05.2009