Обзор 4 определяющих систем ИИ для разговоров, которые мы видели в 2020 году

2020 год закончился! Что за поездка на американских горках ?!

В 2020 году разговорные системы искусственного интеллекта сильно продвинулись вперед. Конечно, когда началась пандемия, мы увидели множество чат-ботов, созданных для удовлетворения потребности в предоставлении людям надежной и достоверной информации о здоровье и безопасности. Многие правительственные организации использовали чат-ботов на популярных каналах, таких как Whatsapp, для распространения достоверной информации.

Новый набор диалоговых систем искусственного интеллекта оставил свой след в 2020 году. Они не были основаны на традиционной архитектуре, основанной на правилах, для диалогового потока. Вместо этого они использовали архитектуры нейронных сетей с глубоким обучением, такие как трансформаторы. Они показали, как на основе данных можно научиться разговорным навыкам и как они могут быть естественными и похожими на человеческие. Давайте рассмотрим их по очереди.

Google Meena

2020 год в значительной степени начался с Google представляет Мину, их непрерывно обученную нейронную модель, обученную общению в открытой предметной области. Команда обучила модель преобразователя 2,6 миллиарда параметров на 341 ГБ текста, отфильтрованного из разговоров в социальных сетях. До этого OpenAI’s GPT-2 была самой большой моделью, обученной на 40 ГБ текста с помощью преобразователя с 1,5 миллиардами параметров. Преобразователь - это модель машинного обучения от последовательности к последовательности, что означает, что он принимает последовательность токенов и выводит другую последовательность. Таким образом, в этом контексте он принимает высказывание пользователя и генерирует высказывание в ответ.

Чтобы проверить, имеют ли ответы смысл, команда также предложила новую метрику - Разумность и среднее значение специфичности (SSA). Это измеряет, насколько разумным и конкретным является полученный ответ. Под разумным они подразумевают, что реакция должна иметь смысл, а в силу специфики они хотели, чтобы модель вызвала как можно более конкретный ответ. На высказывание «Я люблю теннис» ответ «Это здорово» имеет смысл, но недостаточно конкретен. С другой стороны, «Я тоже. Я люблю Роджера Федерера ». был бы более конкретным ответом.

Разговоры Мины сравнивали с разговорами других чат-ботов, таких как Mitsuku, Xiolace, DialoGPT и реальных людей. Мина, похоже, набрала 79%, а люди - 86% SSA. Mitsuku, впечатляющий чат-бот с открытым доменом с ручным кодированием (без машинного обучения), набрал 56%.

Чат-боты службы поддержки клиентов Amazon

Сразу после объявления Google Meena компания Amazon объявила, что экспериментирует с двумя чат-ботами, использующими также нейронную архитектуру. Но это были не чат-боты с открытым доменом, такие как Мина, а ориентированные на выполнение задач - отвечать на вопросы обслуживания клиентов (генеративная модель) и помогать агентам-людям выбирать лучший ответ (модель ранжирования). Генеративная модель была обучена для каждой проблемы обслуживания клиентов отдельно. В дополнение к контексту диалога предоставляется информация профиля клиента, так что модель может генерировать контекстно-зависимый ответ на запрос клиента. А для модели ранжирования ответов дополнительно предоставляются ответы кандидатов (сгенерированные с использованием предопределенных шаблонов), так что модель может выбрать тот, который лучше всего соответствует контексту.

Сгенерированные и ранжированные ответы были представлены агенту по обслуживанию клиентов, который может выбрать использование первого ранжированного ответа непосредственно или после внесения изменений. В ходе исследования с участием агентов по обслуживанию клиентов команда обнаружила, что одно из четырех основных высказываний, сгенерированных моделями, было принято агентами от 63% до 80% (при различных условиях). Это показало, что модели на основе трансформера, подобные этой, могут быть полезны при оказании помощи агентам службы поддержки клиентов в беседах, основанных на задачах.

Facebook Blenderbot

Третье крупное объявление пришло от Facebook об их чат-боте с открытым доменом, который также был с открытым исходным кодом - BlenderBot. BlenderBot расширяет чат в открытом домене, чтобы он также включал в себя последовательную личность и сочувствие, используя то, что они называют смешанным разговором о навыках. Используя 1,5 миллиарда обучающих примеров извлеченных разговоров, команда построила нейронную модель с 9,4 миллиардами параметров.

Чат-бот был оценен вместе с Google Meena с использованием субъективной метрики под названием Acute-EVAL, которая измеряла предпочтение оценщика между системами для долгого чата и чата, подобного человеческому. 67% оценщиков выбрали BlenderBot как более человечный, а 75% выбрали его для долгого разговора по сравнению с Миной. Дальнейшие оценки показали, что модель, в которой использовался смешанный разговор о навыках, была оценена более привлекательно, чем модель, обученная только публичным разговорам, подчеркивая необходимость сочувствия и индивидуальности для увлекательного разговора.

В последующей оценке Pandorabots, Mitsuku победил Blenderbot, набрав 78% голосов аудитории, поскольку два бота разговаривали друг с другом в виртуальной среде. Это был увлекательный эксперимент по подсчету очков между ботами, но он также выявил отсутствие стандартизированных показателей, которые можно было бы использовать для разных чат-ботов и справедливо их сравнивать.

GPT-3

Наконец, самым большим анонсом стал Open AI’s GPT-3. Хотя GPT-3 не был специально представлен как диалоговая система ИИ, он все еще очень актуален для нас, поэтому я включил его в этот список. Генеративный предварительно обученный преобразователь 3 (GPT-3) - это еще одна модель нейронной сети на основе преобразователя, такая как BERT от Google, Turing-NLG от Microsoft и т. Д., И является преемником GPT-2. В то время как GPT-2 имеет около 1,5 миллиардов параметров, GPT-3 имеет 175 миллиардов параметров и был обучен на 570 ГБ текста. Это делает его самой большой моделью с точки зрения обучаемых параметров.

Все эти модели называются языковыми моделями, которые нацелены на предсказание следующего слова в последовательности слов на основе того, что он узнал из миллионов примеров написанного человеком текста. GPT-3 был открыт для использования в качестве услуги в рамках ограниченной бета-версии в течение короткого периода времени. За это время многие исследователи / разработчики создали ряд интересных демонстраций. И их выступление было потрясающим. Были случаи, когда GPT-3 писал газетные статьи, генерировал идеи для стартапов, отвечал на философские вопросы, переводил естественный язык на SQL и даже переводил описания на естественном языке в код. GPT-3 действительно получил много прессы, бесконечные дебаты о подкастах и ​​многом другом о том, сделает ли человеческие рабочие места ненужными. Я считаю, что это мощный инструмент в вашем арсенале, и если вы научитесь им пользоваться, он может сделать вашу работу интересной.

GPT-3 - это многоцелевая модель, которую можно использовать для решения множества языковых задач. Он выполняет обучение по частям, что означает, что нужно дать ему несколько примеров того, как нужно выполнять языковую задачу, и он может подобрать его, используя знания, полученные во время обучения. Я не видел, чтобы он использовался напрямую в каких-либо сценариях чат-ботов. Самым близким, что я нашел, было его использование в текстовой приключенческой игре под названием AI Dungeon. Вот как GPT-3 поддерживает игру. Он генерирует предысторию и дает пользователю варианты выбора. Пользователь может решить, как будет развиваться игра, и сказать это на естественном языке. GPT-3 использует его как подсказку для создания сюжета последующей истории и генерирует больше вариантов. Цикл повторяется до завершения квеста. Впечатленный?!

Обучение огромных моделей, таких как GPT-3, BERT и т. Д., Не обходится без непредвиденных последствий. Обучение таких моделей требует огромного количества вычислительного времени, очень дорого и не очень экологично. И поскольку они обучаются общедоступному тексту, они иногда демонстрируют предвзятость и дискриминацию и могут даже запоминать и выплевывать личные данные людей в обучающем тексте. Но, к счастью, в 2020 году исследователи начали выявлять такие проблемы, и команды активно работают над ними, чтобы эти модели можно было использовать. Еще одна серьезная задача - объединить чат в открытом домене и беседы на основе задач на традиционных платформах, таких как Google DialogFlow, IBM Watson Assistant, Amazon Lex и т. Д., В этих моделях, чтобы предоставить клиентам полезный, удобный и приятный опыт.

2020 год стал определяющим для ConversationalAI. Чат-боты нашли свои варианты использования (в основном из-за пандемии) и широко используются для быстрого и увлекательного распространения достоверной информации о здоровье и безопасности среди людей. Появились более широкие и лучшие языковые модели, которые могут способствовать развитию диалоговых ИИ-решений и сделать их более привлекательными, дружелюбными и увлекательными. Этика искусственного интеллекта заняла центральное место, критические проблемы с существующей архитектурой чат-бота, дизайном и языковыми моделями были выявлены и решаются. Впереди нас ждут огромные испытания, но мне кажется, что мы хорошо начали!