Несмотря на то, что за последние несколько лет чат-боты приобрели плохую репутацию, похоже, что Голосовой ИИ — это следующая большая перспектива в разговорном ИИ. Как любитель технологий, вы можете спросить себя, это то же самое, что и голосовой чат-бот? Ну, возможно, вы технически правы в какой-то степени. Цель этого сообщения в блоге не состоит в том, чтобы исследовать технические глубины сходства между этими двумя. Мы хотели бы подчеркнуть различные проблемы в голосовой автоматизации, а также выделить практические преимущества, если мы все сделаем правильно.

Сначала давайте вспомним, что мы видели до сих пор в качестве чат-ботов!

Итак, вы заходите в свой браузер и посещаете какой-то веб-сайт. У вас есть вопросы. А вот и блестящее маленькое окно чата, всплывающее в правом нижнем углу экрана. Он приветствует вас хорошо, и вы вводите свой первый запрос из любопытства. Менее чем за 2 минуты обмена сообщениями вы либо закрываете окно чата, либо весь сайт от разочарования. Ваш опыт ничем не отличается от опыта других пользователей этого сайта. По сути, вы отказались от этой компании и ее продукции!

Основная проблема с чат-ботами — жесткие роботизированные ответы, на которые они запрограммированы. Им действительно трудно, когда пользователи отклоняются от «счастливого пути» разговора — это предполагаемый путь потока разговора, предусмотренный разработчиком чат-бота. Если вы внимательно посмотрите на некоторые полезные (следовательно, успешные) реализации чат-ботов, сидящих на веб-сайтах, иногда вы заметите, что это достигается за счет умных манипуляций с интерфейсом, а не за счет некоторых методов искусственного интеллекта. Хорошим примером является проверка внешнего интерфейса, такая как интерактивные параметры, графические средства выбора даты и т. д. Здесь хитрость заключается в том, чтобы ограничить пространство для ввода и заставить пользователей (ненавязчиво) давать предсказуемые ответы. Также вы можете написать умный сценарий для чат-бота и заставить чат-бота задавать вопросы таким образом, чтобы пользователь собирался дать тип ответа, который вы планировали. Подводя итог, можно сказать, что контроль пространства ввода пользователей без чрезмерного ущерба для разговора, по-видимому, является популярной техникой в ​​успешных реализациях чат-ботов. Да, это сложно, но это работает для этой ограниченной цели! Но такие ограниченные реализации полностью терпят неудачу, когда пользователь отклоняется от запрограммированного пути.

Когда вы сравниваете чат-ботов и голосовой ИИ, есть важный поведенческий аспект людей в целом, который мы должны учитывать. То есть то, как мы воспринимаем информацию через чтение и слушание, отличается даже в одном и том же контексте. Это означает, что типичные чат-боты с жесткими ответами будут звучать еще хуже, если мы просто превратим их в голосовых ботов. Также вы не можете управлять пространством ввода пользователя теми же методами, которые вы использовали в текстовых диалоговых сценариях. Вдобавок к этому, очень динамичный характер типичных голосовых разговоров сам по себе является огромной проблемой для решения голосового ИИ.

Давайте попробуем внимательно посмотреть, как некоторые продукты на рынке пытаются справиться с этой ситуацией.

Как я объяснял в своих предыдущих статьях, создание настоящего разговорного ИИ — все еще надуманная идея. Таким образом, непросто решить проблемы, связанные со случайными, незапрограммированными пользовательскими запросами с жесткими ответами, или создать решение, похожее на ИИ. Мы должны имитировать «интеллект», а не иметь его в машине. Помимо определенных улучшений в методах понимания естественного языка (NLU), в настоящее время многие продукты голосового ИИ, похоже, продвигают «человеческие» голоса. Это правда, что он в определенной степени связывает людей и машины. Эти «человеческие» голоса на самом деле являются результатом достижений в технологиях преобразования текста в речь (TTS), в то время как разговорная часть ИИ остается с теми же фундаментальными проблемами.

Голосовой ИИ станет инструментом повышения производительности, если мы сделаем это правильно. Количество ценных человеко-часов, которые может сэкономить голосовой ИИ, намного выше по сравнению с тем, что может сделать текстовый чат-бот. По самой природе работы контакт-центра агенты должны полностью заниматься одним конкретным пользователем во время голосового взаимодействия, в то время как агент разговорного чата с искусственным интеллектом может эффективно дополнять операцию, одновременно взаимодействуя с несколькими пользователями. Несмотря на то, что в настоящее время телефония считается устаревшей технологией, потребность в голосовом взаимодействии с клиентами постоянно растет. Фактически, опрос Salesforce утверждает, что голос, наряду с электронной почтой, составляет более 95% обслуживания клиентов сегодня. Когда вы сопоставляете все эти факты из реального мира, становится ясно, что голосовая автоматизация неизбежна!

Некоторые из интересных случаев использования голосового ИИ за последние несколько лет позволяют нам заглянуть в будущее. Недавно банковская и финансовая компания JP Morgan выступила с интересной инициативой — использовать Alexa для предоставления своим клиентам отчетов об исследованиях и аналитике. Еще одним ранним сторонником голосовой автоматизации является Финансовая корпорация Capital One, которая стала первым банком, предложившим свои услуги через Alexa своим клиентам, чтобы помочь им с банковскими операциями. Один опрос показывает, что в 2017 году 29% онлайн-покупателей в США использовали голосовую связь, а 41% планировали это сделать. Недавний запуск Google Duplex, похоже, меняет правила игры для традиционного Google Assistant, где ИИ может сделать резервирование для вас. Несмотря на то, что автоматизация телефонии все еще находится на ранней стадии, она более важна для случаев использования голосового ИИ на основе смарт-устройств. Это может сократить время решения и повысить удовлетворенность клиентов, заставив человека сосредоточиться на дополнительных разговорах. Одной из основных, но менее озвученных проблем, которую может решить автоматизация телефонии, является буферизация, существующая между голосовыми и текстовыми каналами, предоставляющая данные, необходимые для последовательного и беспрепятственного обслуживания клиентов.

Как я упоминал ранее, на пути к тому, чтобы заставить голосовой ИИ работать в реальных приложениях, возникают определенные препятствия. Цель Cognius.ai — предоставить окончательный стек технологий, который поможет специалистам по автоматизации голосовой связи изменить мир бизнеса. В прошлом году мы выпустили нашу диалоговую ИИ-платформу Sofia версии 1.0, основанную на нашей запатентованной технологии, по той же причине. Наше нововведение предоставляет разработчикам решение без написания кода, позволяющее создавать высокоинтерактивный ИИ вдвое быстрее или вдвое легче по сравнению с существующими методами. Конечно, наша умная команда каждый день работает над тем, чтобы сделать его еще лучше.

С платформой Sofia ваш голосовой бот больше не будет звучать как «извините, что не понял вас», когда пользователь начинает что-то вроде «Кстати, я хочу сменить тему… сильный>».

ИИ может отклониться от приятного пути разговора, чтобы поговорить о других вещах, представляющих интерес для пользователя, и, что более важно, София плавно вернет пользователя к исходной теме.

Мы планируем выпустить версию 2.0 платформы Sofia Conversational AI к началу 2022 года. Наша цель — заполнить определенные пробелы в текущей автоматизации телефонии и полностью изменить ее с помощью нашей инновационной технологии. С этим новым выпуском вы сможете невероятно быстро разработать вариант использования голосового ИИ и развернуть его в нужном масштабе. Я подумал о том, чтобы завершить эту статью обещанием более интересного контента на платформе Sofia версии 2.0 в ближайшее время.