Работа со сложными и вложенными данными

Часто наборы данных содержат сложные типы данных, например вложенные массивы JSON. С этими ценностями может быть трудно спорить. В этой статье представлены некоторые инструменты AI & Analytics Engine для простой работы с ними.

Когда наборы данных содержат вложенные данные, такие как вложенные массивы JSON, становится сложнее работать с ними «как есть». Например, при выполнении исследовательского анализа данных (EDA) может быть сложно изучить необходимые функции, глубоко вложенные в JSON. Другой пример может быть, если мы хотим применить прогнозное моделирование к данным. Для этого нам сначала нужно разложить эти сложные функции и «сгладить» нашу таблицу, чтобы продолжить моделирование.

Из-за характера данных эти задачи могут потребовать сложных действий по обработке данных. Здесь мы покажем, что обработка вложенных массивов JSON и объектов JSON на самом деле довольно проста и понятна при использовании AI & Analytics Engine PI.EXCHANGE.

Чтобы показать вам, насколько это просто, мы будем использовать набор данных TMDB 5000 Movies от Kaggle и функцию подготовки данных Engine:

Как видно, многие столбцы, такие как genres, keywords и т. д., на самом деле содержат массив объектов JSON. Эти столбцы потребуют специальной обработки.

В чем проблема со сложными/вложенными данными?

Вложенные данные усложняют процесс обработки набора данных. Причина в том, что его нелегко использовать в исходном виде для выполнения задач науки о данных, необходимых для решения бизнес-задач.

Например, предположим, что мы хотим создать прогностическую модель. С этой целью мы хотели бы извлечь как можно больше информации из нашего набора данных. Таким образом, если наши данные содержат вложенные столбцы JSON, мы обычно должны распаковать их, чтобы иметь возможность их использовать.

Иногда может быть даже сложно понять имеющиеся данные, когда у вас есть сложные значения JSON в одной «ячейке» столбца в наборе данных.

Например, ячейка может содержать следующее значение: (модифицированный пример здесь)

Это для одной ячейки. Представьте, что все ячейки в определенном столбце содержат эту структуру данных. В этот момент становится очень сложно отслеживать данные.

Таким образом, предприятиям нужен эффективный способ обработки наборов данных, содержащих эти типы вложенных структур данных в значениях ячеек.

Есть много подходов, как с этим бороться. Вот некоторые из них:

Некоторые платформы могут разрешать написание пользовательского кода для распаковки. Однако кодирование является громоздким и исключает нетехнических пользователей.
Другие платформы позволяют выполнять распаковку с помощью специального пользовательского интерфейса на этапе приема данных (только для файлов JSON). Этот метод ограничивает другие возможные действия, которые мы могли бы предпринять, такие как вычисление длины массива JSON или объединение столбцов JSON.

По указанным выше причинам (и многим другим) манипулирование JSON в AI & Analytics Engine происходит на этапе обработки данных и позволяет пользователю обрабатывать вложенные столбцы только с помощью пользовательского интерфейса. (Бонус: не нужно писать код.)

Действия по обработке JSON в AI & Analytics Engine

Чтобы пользователи могли легко манипулировать сложными и вложенными данными, AI & Analytics Engine предоставляет множество действий, которые обрабатывают столбцы JSON/вложенные JSON в своем редакторе рецептов. К ним относятся (среди прочего):

Извлечение отдельных атрибутов из столбцов объекта JSON.
Распаковка (распаковка) массивов в массиве JSON в несколько строк.
Манипулирование/запрос массивов JSON с использованием действий формулы, таких как: JSON_ARRAY_CONCAT, JSON_ARRAY_CONTAINS, JSON_ARRAY_LENGTH и т. д.

Эти действия позволяют нам извлекать полезные атрибуты из объектов JSON, превращать столбцы JSON в «дружественную» для машинного обучения структуру, получать представление о вложенных данных JSON и т. д.

Сложный рабочий процесс обработки набора данных

Как объяснялось, одним из наиболее распространенных рабочих процессов является обработка набора данных для создания прогностической модели. Мы продемонстрируем, как это можно сделать с помощью AI & Analytics Engine на наборе данных TMDB 5000 Movies, который представляет собой сложный набор данных, содержащий вложенные значения.

В нашем движке это выполняется с помощью всего нескольких действий:

1. Приведите необходимые вложенные столбцы к массивам JSON.

2. Распакуйте эти столбцы. (Результаты в объектах JSON)

3. Приведите распакованные значения к объектам JSON.

4. Проанализируйте столбцы объекта JSON. (Указание атрибутов для извлечения из значений в столбце объекта JSON).

Конечным результатом является то, что мы полностью удалили все вложенные столбцы, используя только пользовательский интерфейс. Ссылаясь на введение, мы заявили, что действия по распаковке могут быть полезны и для других целей, таких как EDA.

Например, кого-то может заинтересовать обработка только фильмов, в описании которых есть хотя бы некоторое количество ключевых слов, или сравнить средние оценки фильмов в жанре comedy, которые имеют spoken_language из English, по сравнению с фильмами того же жанра на других языках. , и т.д.

Используя действия JSON в частности и остальные действия обработки в AI & Analytics Engine в целом, возможности EDA с этим набором данных практически безграничны.

Заворачивать

Сложные наборы данных являются обычным явлением. Их можно встретить во многих областях бизнеса, таких как маркетинг (Google Analytics), киноиндустрия (пример набора данных в этой статье) и многие другие. Эффективные, простые и «бескодовые» действия по манипулированию JSON для обработки этих типов наборов данных имеют важное значение.
Мы продемонстрировали часть этих возможностей с помощью AI & Analytics Engine.

Вместе с другими действиями по обработке на платформе и другими функциями продукта любой пользователь может наслаждаться сквозным рабочим процессом, от приема данных до развертывания прогностических моделей, даже для сложных наборов данных, оптимизированным способом и с легкостью.

Перейдите к репертуару статей нашего веб-сайта, чтобы узнать, как вы можете начать работу над своим проектом машинного обучения без необходимости написания кода.

Или попробуйте Engine сами! Проанализируйте собственный набор данных с помощью двухнедельной бесплатной пробной версии PI.EXCHANGE.

Первоначально опубликовано на https://www.pi.exchange.