Текущий ландшафт разговорного ИИ и чат-ботов

И как выбрать правильное решение

Введение

"Мы формируем наши инструменты, а затем наши инструменты формируют нас". — Джон Калкин (1967)

Принятие правильных технологических решений в начале пути вашего чат-бота оказывает значительное влияние на то, какой будет траектория вашего чат-бота.

Выбирайте и формируйте свои инструменты с умом.

Позже в процессе эти инструменты будут формировать и влиять на то, как вы планируете, разрабатываете и масштабируете своего чат-бота.

Инструменты и фреймворки для разработки чат-ботов можно условно разделить на три категории.

Категория 1

Более технические инструменты НЛП с открытым исходным кодом и среды разработки чат-ботов. Как правило, это инструменты:

  • Может быть установлен в любом месте
  • Имеет открытую архитектуру
  • Открытый источник
  • Нет или ограниченный графический интерфейс
  • Конфигурационный файл и прокод ориентированы
  • Подход к машинному обучению
  • Более высокий барьер для входа
  • Хорошо масштабируется
  • Требует тщательного технического планирования для установки и оперативного управления.
  • Часто используется в качестве базовой технологии программным обеспечением категории 3.
  • Могут быть разработаны новые функции и улучшена платформа.

Категория 2

  • Часто используется крупными коммерческими предложениями
  • Облако на основе. В некоторых случаях можно выбрать географические регионы.
  • Рассматриваются как безопасные ставки для крупных организаций
  • Решения варьируются от pro-code, low-code до no-code
  • Низкий порог входа
  • ориентированный на графический интерфейс
  • Практически полное отсутствие понимания или контроля над тем, что происходит под капотом.
  • Жесткое управление состоянием диалога на основе правил
  • Стоимость чаще всего не обсуждается

Категория 3

  • Это независимые альтернативы разговорному ИИ, предоставляющие инкапсулированный продукт.
  • Технология под капотом часто не раскрывается
  • Независимые альтернативные поставщики решений
  • Часто создается с использованием инструментов НЛП с открытым исходным кодом.
  • Часто новаторские подходы к задачам Dialog State Проектирование, разработка и управление
  • Подход с низким кодом к нулевому коду
  • Возможность быть приобретенным
  • Цена часто более договорная
  • Запросы функций с большей вероятностью будут удовлетворены
  • Более низкий барьер для входа и начала работы

Тонкая настройка

В целом, целью большинства сред разработки чат-ботов является создание среды, которая позволяет техническим специалистам среднего уровня легко адаптироваться.

И только выполнение НЛП позволяет создать простую среду ввода-вывода данных.

По мере того, как диалоговый агент растет и развивается, появляется все больше сложностей, учитывая такие элементы, как управление диалогами, поддержание контекста.

Следовательно, необходима гибкость, а также интерфейс для разработки и управления состоянием диалога. Задача состоит в том, чтобы иметь естественный и адаптивный диалог, который также был бы предсказуемым и управляемым.

Чем более бескодовым или малокодовым становится решение, тем меньше вариантов тонкой настройки становится меньше. Чем больше тонкостей, тем больше сложность.

Интерфейсы с низким кодом доступны через один или набор инструментов, которые по своей природе очень графичны; и изначально интуитивно понятен в использовании. Таким образом создается видимость быстрой адаптации и ускоряется процесс доставки решений в производство.

Как и в случае со многими подходами такого рода, поначалу это кажется очень хорошей идеей. Однако по мере того, как начинают играть роль функциональность, сложность и масштабируемость, возникают огромные препятствия.

Когда кто-то говорит о способности или степени тонкой настройки, что именно он имеет в виду? В этом разделе мы рассмотрим несколько общих элементов, составляющих тонкую настройку.

  • Формы и слоты
  • Намерения
  • Сущности
  • Генерация естественного языка (NLG)
  • Диалоговое управление
  • Отступление
  • Многозначность

Общие тенденции в категории 1 и 2

Начнем с шести основных тенденций развития чат-ботов…

1️⃣ Растет активность в голосовых/речевых интерфейсах, особенно доступ через телефонный звонок, а не обязательно специальное устройство голосового помощника. IBM Watson Voice Agent был запущен в 2018 году, но с марта 2021 года он будет объявлен устаревшим и полностью интегрирован в Watson Assistant в качестве недавно выпущенной интеграции с телефоном. Запущены Google DialogFlow CX и NVIDIA Riva.

2️⃣ Отказ от намерений. Это также называется сквозным обучением. Устаревание намерений обеспечивает большую гибкость с точки зрения пользовательских вводов и сопоставления этих вводов с диалоговым узлом. Однако существует потеря способности тонкой настройки, поэтому еще неизвестно, как это будет работать на практике. Один из сценариев заключается в том, что бессознательные навыки создаются бизнес-подразделениями, а не техническими командами. И эти навыки действуют как расширение существующего помощника.

3️⃣ Намерения и Сущности продолжают сливаться, и контекстная аннотация сущностей в намерениях или высказываниях становится обычным явлением и очень необходима. Составные объекты также становятся все более важными. Слияние намерений и сущностей — это процесс, в котором сущности тесно связаны с намерениями. Результатом является эффективная петля обратной связи.

4️⃣ Структуры данных вводятся в сущности… Эта тенденция видна с помощью инструментов Rasa, Alexa Conversations и особенно Microsoft LUIS. Раса называет это ролями и группами сущностей. AWS называет это слотами со свойствами. И Microsoft LUIS, объекты ML, которые можно разложить. Cisco MindMeld также потратила время на создание сущностей.

5️⃣ Пограничные установки становятся все более важными… NVIDIA Riva и Rasa приходят на ум для установки в любом месте.

6️⃣ Устаревание Государственной Машины неизбежно, Раса здесь лидирует. IBM внедряет автоматизацию в свою систему Dialog Management с оценкой усилий клиентов и меню автоматического устранения неоднозначности. Необходимо упомянуть Watson Actions. Большинство фреймворков сходятся на таких идеях, как намерения, сущности, диалоговые сообщения и аналогичные подходы. В то время как когда дело доходит до развития состояния диалога и управления им, существуют значительные различия в подходах к проблеме. NVIDIA работает над Riva Studio, которая, скорее всего, будет включать в себя разработку состояния диалога. Что-то, что сейчас не является частью Riva. Текущие демонстрации Riva используют Rasa и Google Dialogflow для управления диалогами.

Обзор среды разработки

Среды, как правило, очень похожи по своему подходу к инструментам, доступным для создания диалогового интерфейса.

С учетом того, что доступно, среды разработки чат-ботов по-прежнему можно разделить на четыре отдельные группы для категорий 1 и 2, упомянутых выше.

Это:

  • Ведущие коммерческие облачные предложения
  • Инструменты NLU/NLP (в основном с открытым исходным кодом)
  • Авангард и край
  • Используйте облако, в котором вы находитесь

Категория 1: Авангард

Здесь РАСА действительно оказывается в одиночестве на переднем крае. Недавно с точки зрения доступа к речи на сцену вышла NVIDIA Riva. У Ривы есть два препятствия; доступ к графическим процессорам NVIDIA на основе их архитектуры Turing или Volta. И, во-вторых, функция разработки и управления диалогами Riva находится в разработке и еще не выпущена.

Rasa следует очень уникальным путем с точки зрения желания отказаться от конечного автомата с его жестко запрограммированными диалоговыми потоками/деревьями. Вместе с их Conversation Driven Design (CDD) в форме Rasa-X это очень привлекательный вариант.

Их сущности осведомлены о контексте, и они следуют подходу, при котором сущности и намерения действительно сливаются.

Составные объекты являются частью предложения. Сущности можно сегментировать по ролям и группам.

Объявлено и инициировано устаревание намерений.

Судя по их расширению, финансированию, поддержке разработчиков и событиям, за этой компанией стоит следить.

Надеюсь, крупные игроки будут подражать им. Одной из их сильных сторон является защита интересов разработчиков и выбор технологии для посевных проектов.

RASA удалось создать лояльных разработчиков.

Категория 1: Инструменты НЛУ/НЛП

Существуют также (некоторые с открытым исходным кодом) инструменты, такие как Hugging Face, spaCy, pache OpenNLP, RASA NLU и другие, которые можно использовать для обработки естественного языка в вашей среде.

Некоторые организации создают собственную платформу чат-ботов, используя эти инструменты.

Это более сложный путь и требует больше времени, но если у вас есть существующая среда, расширение ее возможностями обработки естественного языка, использование этих инструментов является жизнеспособным вариантом.

Это действительно удивительная мощь большинства этих инструментов с открытым исходным кодом. А с доступной документацией он может служить «бесплатным программным обеспечением» отправной точкой для первого набега на обработку естественного языка. Следует отметить, что в некоторых случаях существуют издержки предприятия.

Категория 2: Ведущее коммерческое облачное предложение

Ведущие коммерческие облачные среды привлекают к ним клиентов и пользователей исключительно благодаря своей способности обработки естественного языка и присутствия, простоте использования без установки и управления средой.

Среди них я считаю IBM Watson Assistant, Microsoft Bot Framework / Composer / LUIS / Virtual Agents, Google Dialog Flow и т. д..

Устоявшиеся компании тяготеют к этим средам, конечно, при значительных затратах. Они рассматриваются как надежный вариант, отвечающий их требованиям к диалоговому ИИ.

Они рассматриваются как поставщики инструментов для чат-ботов сами по себе.

Масштабирование любого корпоративного решения не будет проблемой, а постоянное развитие и расширение инструментов является само собой разумеющимся. Ресурсы изобилуют техническими материалами, учебными пособиями и многим другим.

Категория 2: «Используйте облако, в котором вы находитесь»

Я не могу не чувствовать, что Amazon Lex с Oracle Digital Assistant (ODA) находят себя в этой группе. Мне кажется, что кто-то не будет легко выбирать ODA или Lex, если у них нет существующего подключения к Oracle или AWS с точки зрения облака.

Особенно, если существующим вложением является Oracle Cloud или Oracle Mobile Cloud Enterprise. Или с AWS через Echo и Alexa.

Еще одним препятствием для ОПР является стоимость. Бесплатный доступ играет огромную роль в принятии разработчиками и в том, что платформа набирает критическую массу. Мы видели это, когда IBM была очень доступна с точки зрения их бесплатного уровня с обилием функциональных возможностей.

Microsoft прошла долгий путь в более доступных инструментах, особенно в средах разработчиков. RASA, несмотря на относительно поздний старт, вложила много времени и усилий в защиту интересов разработчиков. Google Dialogflow также популярен и часто является отправной точкой для компаний, изучающих NLU и NLP.

ПОД недостаточно доступна, а существующие препятствия для экспериментов и создания прототипов не помогают.

Межотраслевые тенденции

  • Прекращение намерения.
  • Устранение неоднозначности намерений с помощью меню автоматического обучения.
  • Слияние намерений и сущностей

  • Устаревание государственной машины. Или, по крайней мере, к более разговорному интерфейсу.
  • Сложные объекты; введение сущностей со свойствами, группами, ролями и т. д.

Технология чат-ботов обеспечивает как горизонтальный, так и вертикальный рост.

Из диаграммы выше видно, где происходит этот рост:

Вертикаль — Технологии

Разговорный пользовательский интерфейс отходит от структурированного предустановленного меню и интерфейса, управляемого ключевыми словами. С движением к неструктурированному вводу на естественном языке и более длинному разговорному вводу. Предоставление пользователям возможности устранения неоднозначности, когда два или три намерения близки по счету. Использование этого как механизма самообучения.

Горизонтально — пользовательский опыт

В этом измерении бот превращается из бота для обмена сообщениями в действительно диалоговый интерфейс. От навигации по клику до возможного неограниченного составного естественного языка.

Цифровой сотрудник

В конце игры цифровой сотрудник, вышедший из среды чат-бота, превратился в области текста и речи.

С контекстной осведомленностью на четырех уровнях:

  • В текущем разговоре
  • Из предыдущих разговоров
  • Из CRM и других источников данных, связанных с клиентами/пользователями
  • В разных средах

Цифровой сотрудник растет в разных средах и модальностях. Овладение языками с обнаружением, переводом, тоном, настроением и автоматической классификацией разговоров.

Среды будут включать такие устройства, как Google Home, Amazon Echo, традиционный IVR и другие. Поскольку мы, люди, можем общаться текстом или голосом; точно так же цифровой сотрудник сможет общаться текстом или голосом.

Матрица рейтинга предложений чат-ботов

При оценке девяти решений для чат-ботов я рассмотрел девять ключевых моментов. Очевидно, что возможности NLU являются ключевыми с точки зрения намерений и сущностей. Я был особенно резок в отношении того, какие сущности можно применять составным образом, аннотировать и обнаруживать контекстуально с помощью декомпозиции.

Диалог и государственное развитие и управление также являются ключевыми моментами; простота разработки важна и насколько возможно сотрудничество.

Остальные элементы говорят сами за себя.

Для разных организаций важны разные элементы, которые будут направлять их мышление и в конечном итоге определять их суждения. Например, несмотря на то, что Lex во многих отношениях не работает, если компания использует AWS для других сервисов, Lex может быть правильным выбором.

То же самое касается Oracle, MindMeld и т. д.

Графический поток вызовов/инструменты разработки диалогов

Для более крупных организаций и больших команд сотрудничество важно. Простота совместного использования частей диалога и совместного создания имеет первостепенное значение. Следовательно, организации нуждаются в графических средах разработки. Другие команды предпочитают более гибкий подход к собственному коду.

IBM Watson Assistant сделал большое дополнение с запуском Actions.

Rasa со своим инструментом под названием Rasa-X настолько уникальна, что ее трудно точно отнести к другим средам. Раса-Х графическая, ее можно редактировать и развивать, но она намного шире.

Функция разработки и управления диалогами Джарвиса находится в стадии разработки и еще не выпущена.

НЛУ

Понимание естественного языка лежит в основе возможностей чат-бота. Без обнаружения сущностей и распознавания намерений все попытки понять пользователя сводятся на нет.

В некоторых элементах среды чат-бота импровизация может иметь большое значение. В НЛ это не так. LUIS обладает исключительной категоризацией объектов и функциональностью. Это включает в себя разлагаемые сущности. IBM Watson Assistant также можно считать одним из лидеров вместе с RASA и NVIDIA Jarvis.

Я также посмотрел на интеграцию компонентов NLU в другие компоненты чат-бота. Именно в этом Microsoft преуспевает благодаря своей растущей недвижимости для чат-ботов.

Масштабируемость

Зрелость любой платформы проверяется в корпоративной среде, где присутствуют реализации с различными вариантами использования и постоянно расширяющимся масштабом.

Готовность предприятия — это критерий оценки, которому не уделяется должного внимания. После обнаружения уязвимостей в технологию уже вложено слишком много денег и времени.

Заключение

Это просто обзор, основанный на матрице с точками оценки, которые я лично считаю важными.

И опять же, на наше суждение повлияет то, насколько важен конкретный пункт в матрице для вас или вашей организации.

В конечном итоге программное обеспечение должно служить определенной цели в вашей организации и текущем облачном ландшафте. Предложение, наиболее подходящее для этой цели, является лучшим выбором для вас.



«Подпишитесь на мою рассылку.
НЛП/НЛУ, Чат-боты, Голос, Разговорный UI/UX, CX Designer, Разработчик, Вездесущие пользовательские интерфейсы, Ambient…кобусгрейлинг. мне"