Достижения в области искусственного интеллекта продолжат разрушать современный стек данных.

В последнее время большие языковые модели (LLM) были в моде с появлением ChatGPT от OpenAI.

Большинство из более чем 100 миллионов пользователей используют завершение чата/текста, чтобы облегчить свою повседневную жизнь. Тем не менее, малоизвестный API, предоставляемый OpenAI, под названием Embeddings действительно меняет то, как мы выполняем поиск, кластеризацию и обнаружение аномалий.

Что такое вложение?

Вложение (также называемое векторным встраиванием) представляет собой серию векторов, обеспечивающих математическое представление слов или предложений. Векторы фиксируют семантическое значение и контекст слов или фраз.

Преимущество векторных вложений заключается в том, что они позволяют нам сравнивать и анализировать слова и фразы математически, позволяя нам выполнять такие задачи, как обработка естественного языка, классификация текста и поиск информации. Они также позволяют нам определять сходства и отношения между словами, даже если они совершенно разные.

Например, векторные вложения для «собаки» и «кошки» будут намного ближе друг к другу, чем для «собаки» и «банана». Несмотря на то, что собака и кошка не имеют точного написания, значения и места в словаре, они не являются синонимами. Тем не менее, у них есть общие характеристики, например, они оба четвероногие, их можно держать в качестве домашних животных, их можно дрессировать и т. д.

Теперь, когда мы понимаем основную концепцию встраивания, давайте посмотрим, как мы можем использовать это, чтобы упростить болезненные действия по управлению данными.

1. Рынок данных с семантическим контекстом

Использование словарей данных и глоссариев выполняется вручную, отнимает много времени и чревато ошибками.

Во многих организациях, с которыми я работал, инструмент управления метаданными внедряется как часть проекта, а затем не поддерживается, поэтому становится устаревшим и непригодным для использования. Векторные вложения могут произвести революцию в этом, предоставив более эффективный и действенный способ организации и доступа к информации. Представляя каждый элемент данных в виде вектора, мы можем измерить сходство и взаимосвязь между различными элементами данных, упрощая поиск и извлечение соответствующей информации. Это может помочь создать более интуитивно понятный и удобный интерфейс, в котором элементы данных организованы на основе их семантического значения и контекста, а не только их имен или меток.

Нужны ли нам словарь и глоссарий? Если все, что нам нужно, это кто-то, кто предоставит разумно разборчивую подсказку, и Embeddings, чтобы найти ответ, который точно соответствует запросу!

2. Классификация наборов справочных данных

Справочные данные, такие как иерархия продуктов, коды валют и стран и т. д., должны быть явно определены и сохранены для обеспечения точной отчетности.

Выполнив множество проектов по управлению данными, я понимаю всю сложность согласования всех справочных данных, чтобы помочь организации говорить «на одном языке». В этом случае организация может использовать векторные вложения для создания оценки сходства между каждым продуктом на основе семантического значения описаний продуктов. Это может помочь идентифицировать продукты, которые являются одинаковыми, но имеют разные названия или идентификаторы в других частях организации. Векторные вложения также могут определять потенциальные совпадения для новых продуктов на основе их сходства с существующими продуктами в справочных данных.

Вместо явного хранения эталонных данных мы можем полагаться на наиболее близкое значение из векторов для классификации базовых данных.

3. Качество данныхОбнаружение аномалий

Профилирование данных — это первый шаг к пониманию качества данных.

Используя базовое распределение элементов данных, мы можем сравнить новый набор данных с существующим распределением данных. Аномалии или точки данных, значительно отличающиеся от базового уровня, будут иметь большую оценку расстояния или несходства, что указывает на то, что они могут быть неверными, неполными или иным образом проблематичными. Установив пороговое значение для оценки несходства, мы можем автоматически идентифицировать и помечать точки данных, которые являются потенциальными аномалиями, что позволяет командам по управлению данными исследовать и решать проблему.

Например, клиент с номером телефона, значительно отличающимся от нормы для этого кода города.

Заключение

Из-за бесконечных вариантов использования Vector Embeddings несколько потенциальных новаторских технологий становятся популярными. Векторные базы данных, такие как Pinecone и pgvector, а также преобразователи предложений и встраивания текста.

Хотя я воодушевлен будущим встраивания, я осторожен, зная о плохом состоянии управления данными и качества во многих организациях. Если вам интересно, как мы улучшаем основы, ознакомьтесь с моим руководством Ultimate Data Quality.



Если вы не подписаны на Medium, рассмотрите возможность подписаться по моей реферальной ссылке. Это дешевле, чем Netflix, и объективно гораздо лучше использует ваше время». Если вы воспользуетесь моей ссылкой, я заработаю небольшую комиссию, а вы получите доступ к неограниченным историям на Medium, беспроигрышный вариант.