LLM, игровая площадка co:here и переход от прототипа к производству

Ноутбуки, API, совместная работа и добавление сложности

Введение

Краткое обобщение для начала… co:here — это платформа для естественного языка. Его можно использовать как для понимания естественного языка, так и для генерации.

И co:here — это простой способ доступа к большим языковым моделям для таких случаев использования, как:

Классификация,
семантический поиск,
Перефразируя,
Подведение итогов и
Генерация контента.

Скорость и простота, с которой вы можете вводить свои собственные данные, быстро экспериментировать и экспортировать детали API из игровой площадки для использования в более готовых к работе средах, очень привлекательны.

Выше приведен пример из игровой площадки co:here, где используются эмбеддинги. Был использован список очень случайных 724 предложений, все очень случайного характера. Co:here требуется несколько секунд, чтобы создать вложение из данных, а затем нанести все высказывания на двумерную диаграмму, чтобы визуализировать семантическое сходство в предложениях.

Препятствия для доступа к НЛП

Как правило, препятствиями для доступа к НЛП являются:

Требования к большим наборам данных для обучения
Длительное время обучения
Специализированное оборудование
Конкретные знания

Все это сводится на нет с помощью детской площадки. Используя предварительно обученные большие языковые модели, можно использовать небольшие объемы собственных данных для быстрого достижения результатов.

Как показано выше, игровая площадка может выступать в качестве инкубационной зоны для проектов, которые развиваются в API, блокноты и общее сотрудничество, что в конечном итоге завершается продуктом или приложением.

Выше вся деятельность игровой площадки co:here может быть экспортирована в различные форматы.

При работе с игровой площадкой co:here следует помнить, что вскоре вы перерастете игровую площадку с точки зрения:

Размер наборов данных
Настройка результатов
Предварительная и постобработка
Сотрудничество
и, очевидно, интеграция

Следовательно, следующий шаг — блокноты и/или API для совместной работы и добавления сложности, и, наконец, подготовка к производству функциональных возможностей.

Но что, если игра может продолжаться, а игровая площадка может превратиться в полноценный рабочий стол без кода… поглощающий все итерации от игры до производства в одном связном интерфейсе без кода?

«Мастер искусства жить не делает различий между своей работой и игрой, своим трудом и своим досугом, своим умом и своим телом, своей информацией и своим отдыхом, своей любовью и своей религией. Он едва ли знает, что есть что. Он просто преследует свое видение совершенства во всем, что делает, предоставляя другим решать, работает он или играет. Для него он всегда делает и то, и другое.

― Джеймс А. Миченер

Визуализация и изучение данных

Вернемся к игровой площадке co:here… Как показано ниже, крайне неструктурированные высказывания пользователей с орфографическими и грамматическими ошибками графически представлены и сгруппированы. Выбросы для каждого кластера могут быть проверены.

Для более подробного ознакомления с кластеризацией co:here взгляните на эту статью…

Прочесывание 10 000 сообщений Hacker News с помощью текстовой кластеризации
Hacker News — одно из ведущих онлайн-сообществ для обсуждения тем, связанных с программным обеспечением и стартапами. Я часто посещал сайт…txt.cohere.ai

Создание структуры из сильно неструктурированных данных, а также данных, которые не были очищены или предварительно обработаны каким-либо образом, всегда полезно. Во многих случаях для сравнения данных и их соответствующей сегментации должны существовать уже существующие параметры. Здесь не так…

Над списком преднамеренно случайных предложений некоторые из них не являются полными предложениями и содержат много орфографических и грамматических ошибок. Это часто является характером данных, введенных клиентом.

Тем не менее, co:here может создавать визуальное встраивание высказываний. Сразу же беглым взглядом видно, о чем говорят клиенты. Некоторые кластеры тесно связаны между собой, например, вверху география, а внизу связанные со временемвысказывания сгруппированы вместе. .

Эти же случайные предложения я импортировал в верстак HumanFirst. В данном случае не несколько десятков, как в случае с игровой площадкой co:here, а 724 высказывания. И вы увидите, как гранулярность может быть установлена с размером кластера. Различные кластеры можно просматривать и визуально проверять, а справа можно получить доступ к ряду оценок и достоверностей.

Опять же, необработанные данные сгруппированы в намерения и могут быть быстро переупорядочены без какого-либо заранее определенного списка руководящих намерений или предложений. Предварительная обработка данных не проводилась. Есть как минимум три других фреймворка, которые предлагают обнаружение намерений и кластеризацию высказываний. Это Amazon Lex, Oracle Digital Assistant и Nuance Mix.

Детская площадка к продукту

Но что, если бы вы могли масштабироваться от игрового подхода до конечного продукта?

Что, если бы вы могли оставаться в игровой среде без кода и импортировать огромные объемы данных и оставаться в среде без кода для изучения, аннотирования и создания моделей NLU?

С помощью HumanFirst кластеры могут быть преобразованы и названы намерениями. Появилась модель NLU, обученная на этих данных и поиск с соответствующими намерениями и достоверностью.

Является ли это игровой площадкой, да и нет… она начинается как игровая площадка… но превращается в полноценный движок NLU с опциями для оценки вашей модели в соответствии с F1, Precision, Recall, Accuracy и т. д.

И, наконец, ниже список правдоподобных намерений, извлеченных из предложений.

Оценка важна для обеспечения того, чтобы точность не снижалась по мере добавления и/или редактирования данных.

Возвращаясь к идее полноценного NLU, механизм NLU можно запрашивать и получать результаты и достоверность. Это аналогично интерфейсу NLU попробоватьтестирования Nuance Mix.

Запрос API можно скопировать одним нажатием кнопки, чтобы создать API NLU.

Ниже скопирован результат из HumanFirst в инструменте Postman API…

А ниже результат вызова API…

{"matches": [
{"id": "intent-REPQMVD5F5DQLHT47CMNKBYF",
"name": "Contradictions",
"score": 0.38389683},
{"id": "intent-FGODEKRVSNFJVG337XA6A45U",
"name": "Feelings",
"score": 0.17203717
},
{
"id": "intent-QVDWEWOQWFB4BFJOWQQIPXO6",
"name": "Too Random",
"score": 0.16002339
},
{
"id": "intent-MNPN4KIFDVBMFB6KSSVH4BJV",
"name": "Belief_Understanding",
"score": 0.14170465
},
{
"id": "intent-SR3WDEMJFZAM7JZHNMUCBD63",
"name": "Ironly_Dark",
"score": 0.056618396
},
{
"id": "intent-XUWANTMV2RERXNJYCSUIW6DN",
"name": "LifeDecisions",
"score": 0.047174823
},
{
"id": "intent-SFZGDHLEJVDSXMYFNIFYNF5V",
"name": "Happiness",
"score": 0.038544785
..................

Несмотря на то, что рабочая среда HumanFirst является таким расширенным интерфейсом без кода, для производственных данных необходимо будет создать интеграцию, конвейеры и API.

В HumanFirst для этого предусмотрено, что будет естественным вытеканием из верстака, но только на гораздо более поздней стадии.

Возможности HumanFirst Studio можно использовать, контролируя планирование, обучение и развертывание моделей и артефактов NLU, а также предоставляя API-интерфейсы.

Следующим шагом будет аннотация сущностей…

Аннотация сущностей

В рабочей среде HumanFirst обучающие данные могут быть аннотированы, а объекты могут быть отмечены в намерениях. Машинное обучение, похоже, используется с функцией Найти похожие варианты, которая сортирует обучающие примеры для выявления связанных вариантов существующих аннотаций.

Аннотирование намерений с помощью объектов с помощью ИИ.

Чем-то это напоминает прямую аннотацию, которую выполняет IBM Watson Discover.