Наша команда по исследованиям и разработкам часто запускает программы, чтобы помочь следующему поколению экспертов в области разговорного ИИ развить свои навыки. Недавно они поручили двум студентам из престижного шведского Королевского технологического института KTH проверить, насколько легко и быстро они могут выполнять ряд задач в трех других конкурирующих продуктах по сравнению с Teneo.

Максу Кильборгу и Адаму Лилье было поручено оценить диалоговые платформы ИИ на предмет того, насколько хорошо они работают на основе набора критериев: простота использования, эффективность, опыт. работы с программным обеспечением и каких результатов можно ожидать от каждой платформы.

Они должны были выполнить задачи, изложенные в упражнениях, и оценить их на основе некоторых эвристик Нильсена:

  • Последовательность и стандарт
  • Узнавание вместо припоминания
  • Гибкость и простота использования

Не все сделали окончательный вариант

Неудивительно, что мы вышли на первое место. 😉 В упражнениях были ситуации, с которыми, как мы знали, наши конкуренты не справятся. Но, поскольку они охватывают некоторые основные задачи, которые, как мы думаем, часто будут использовать предприятия, мы сочли оправданным их включение.

Из трех выбранных конкурирующих продуктов: Google Dialogflow, Microsoft Luis и IBM Watson Luis был исключен из тестирования на раннем этапе. Он функционирует только как классификатор намерений и используется для определения того, что хочет клиент. Но поскольку это лишь малая часть функциональности, необходимой для платформы разработки диалогового ИИ, было решено, что было бы несправедливо оставлять Луиса в тесте.

Таким образом, Диалогфлоу и Ватсон противостояли Тенео.

Наблюдения, сделанные при выполнении заданий

Google Диалоговый поток

В отчете отмечается, что хотя Dialogflow имеет интуитивный способ маркировки объектов из обучающих примеров, получить доступ к одному и тому же объекту из разных слов непросто. Так что, если, например, вы хотите сопоставить город с соответствующей едой, вам не придется работать.

Наши бесстрашные тестировщики использовали синонимы в качестве обходного пути, но снова столкнулись с проблемами, пытаясь получить доступ к этим синонимам после их создания.

Проблемы также возникали при отправке значений и параметров через разные намерения. В своем отчете Кильборг и Лиля отметили, что не было простого способа сказать: «Эй, после этого потока, если пользователь спросит о том или ином, я хочу перейти к этому потоку, и я хочу сохранить эти конкретные фрагменты информация, которую пользователь уже предоставил».

В целом Dialogflow показал хорошие результаты при различении схожих намерений, таких как «Какая погода в Стокгольме» и «Будет ли сегодня дождь в Стокгольме». Признавая, что одно о погоде, а другое о погодных условиях. Однако в другом тесте он не смог распознать разницу между формами множественного числа, такими как билет и билеты.

Кроме того, хотя он и справлялся с прерыванием разговора и переключением на другую тему, он не мог вернуться к предыдущему разговору.

Общий вывод отчета был следующим: « Хорошо справляется с простыми задачами, но не справляется с задачами, требующими взаимодействия между намерениями пользователя».

Помощник IBM Watson

Аналогичные проблемы были обнаружены с Watson Assistant. В сценарии бронирования рейса не всегда может быть разница между пунктом отправления и пунктом назначения.

Это стало очевидным при использовании тестового вопроса «Я хочу забронировать рейс в Стокгольм», и бот отвечал «куда?» вместо «». откуда? “.

В отчете отмечается, что, хотя «пользовательский интерфейс прост для понимания… проблема может заключаться в недостатке функциональности. В этом примере нам нужно было бы создать два объекта, пункт отправления и пункт назначения, а не использовать только beta-sys.location, чтобы иметь возможность различать, куда пользователь хочет перейти и откуда он хочет уйти».

Заполнение слотов также было неудобным. Включенный через «настраиваемый» раздел платформы, который казался скрытым по сравнению с другим функционалом, тестировщикам потребовалось некоторое время, чтобы понять.

Кильборг и Лилья также подчеркнули, что «Watson долго обучался обновлению намерений, сущностей и т. д.. что добавляется при многократном обновлении намерений в сеансе «.

Кроме того, добавление пользовательских примеров также отнимало много времени, потому что их нужно было добавлять по одному, а не включать несколько примеров за один раз.

Также отсутствовали другие функции, позволяющие экономить время, такие как некоторые стандартные готовые намерения и возможность создавать намерения с несколькими строками. Watson Assistant также не смог справиться с прерыванием во время запроса информации. Вместо этого чат-бот продолжал повторно запрашивать тот же исходный запрос.

В отчете делается вывод о том, что, хотя «не особенно интуитивным, он справился с более сложными задачами».

Тенео

На первый взгляд Кильборг и Лилья сказали, что нашли Тенео немного ошеломляющим. Маленькие экраны ноутбуков не очень подходили для разработки потоков, а на приборной панели было большое количество кнопок.

Но как только они поняли, как использовать Teneo, они почувствовали разумность в том, чтобы все функции были легко доступны, а макет позволял им лучший обзор всего проекта.

«Teneo имеет отличное визуальное представление каждого потока, и очень легко проследить путь конечных пользователей. Кроме того, при общении с ботом вы получаете информацию о том, какие потоки были запущены».

В отчете говорится, что процесс написания условия был не очень интуитивным и что для правильного синтаксиса необходимо было обратиться к документации Teneo. Тем не менее, он признал, что Teneo был мощным инструментом, когда дело дошло до таких задач, как идентификация определенных объектов в определенном порядке.

Кильборг и Лилья обнаружили, что очень легко добавить ссылку на существующий поток и выбрать, какие переменные отправлять по пути. Это включало установку переменных «назначение/источник» в качестве переменных из потока, который должен быть закрыт.

Обработка последующих вопросов и прерываний также была легкой. “ Когда нужно было иметь возможность прервать поток, эта функциональность была просто добавлена, сделав узел повторно посещаемым”.

В отчете делается вывод, что «Teneo сложнее понять на раннем этапе, но через некоторое время все становится на свои места, и разработка сложных чат-ботов внезапно становится простой».

Количество шагов по сравнению с затраченным временем

«Результаты показывают, что в среднем Teneo потребовалось наименьшее количество шагов для выполнения задачи, за ним следует Watson Assistant и, наконец, Dialogflow».

Кильборг и Лилья утверждают, что, поскольку фактическая разница в количестве шагов составляет менее 10%, это неверный показатель.

Вместо этого они смотрят на время, потраченное на задачи. Из-за создания обходных путей и задержек в ожидании завершения обновлений обучения время, необходимое для некоторых задач, значительно увеличилось как в Dialogflow, так и в Watson Assistant.

Кроме того, в отчете подчеркивается, что это может быть еще больше усугублено задержками в скорости интернета, поскольку обе программы основаны на Интернете, тогда как Teneo - на компьютере.

Общие результаты

Один из ключевых выводов отчета заключался в том, что «платформы довольно сильно различаются по мере того, как задачи усложняются или усложняются».

Teneo была единственной платформой, на которой тестировщики могли выполнить все десять задач. Кильборг и Лиля смогли выполнить только 6 задач в Watson Assistant и 5 задач в Dialogflow.

Несмотря на начальный медленный запуск, Teneo получил наивысшую среднюю оценку за простоту понимания пользовательского интерфейса, за ним следует Watson Assistant и, наконец, Dialogflow.

«Вначале Dialogflow и Watson Assistant превзошли Teneo. Но по мере того, как задачи усложнялись и становились все более сложными, Teneo поднимался в рейтинге, а остальные падали».

Следующий шаг

Позвольте мне подчеркнуть то, что я сделал в начале этой статьи; Я не пытаюсь выдать это за полностью независимый анализ со статистически достоверным размером выборки. Студенты сделали все возможное, чтобы устранить предвзятость, но я уверен, что некоторые из них неизбежно прокрались. Тем не менее, исследование более чем намекает на сильные стороны Teneo как надежной, готовой к работе, корпоративной платформы диалогового ИИ.

Действительно, это результат как минимум трех дополнительных независимых анализов, проведенных партнерами и потенциальными клиентами — к сожалению, все они в настоящее время защищены NDA и не могут быть опубликованы в данный момент.

Так, что дальше? Что ж, мы изучаем, как мы могли бы расширить это исследование в сотрудничестве с независимым органом, таким как университет, и провести более статистически надежный и беспристрастный анализ.

Тем временем, однако, лучший способ для вас оценить различные платформы — это попробовать их самостоятельно, и вы можете опробовать Teneo в среде разработчика, доступной на www.teneo.ai.

Первоначально опубликовано на https://www.artificial-solutions.com 20 июля 2020 г.