ИИ, ориентированный на данные, и изменение формы инструментального пространства

Сквозную разработку решений Data Science можно в широком смысле описать как процесс анализа, планирования, разработки и операционализации бизнес-проблемы, которая может быть решена с помощью автоматизированного анализа входных данных. Этот процесс начинается с проблем и целей бизнеса. и проходит несколько этапов. Этот жизненный цикл можно обобщить следующим образом:

Как специалисты по науке о данных, мы уже знаем, что ожидаемым результатом этого цикла является решение, состоящее из:

Система ИИ = код + данные, где код означает модель/алгоритм.

это означает, что для улучшения решения мы можем либо улучшить наш код, либо улучшить наши данные, либо, конечно, сделать и то, и другое. Каков правильный баланс для достижения успеха?

С общедоступными наборами данных, например, через открытые базы данных или Kaggle, понятно, почему был применен более ориентированный на модели подход: данные по своей сути более или менее хорошо себя ведут, а это означает, что для улучшения решений, внимание должно было быть сосредоточено на единственном элементе, который имел больше свободы для настройки и изменения, — на коде, точнее на моделях. Но реальность, которую мы видим в отрасли, совершенно иная. Это была точка зрения, которую разделял Эндрю Н.Г. в 2021 году, и с тех пор ее принятие растет.

В следующих разделах мы продолжим изучение этой новой концепции и представим некоторые решения реальных проблем. YData является пионером в оказании помощи специалистам по данным в создании высококачественных обучающих наборов данных, предлагая несколько инструментов с открытым исходным кодом и корпоративную платформу, созданную специалистами по данным, чтобы дать специалистам по данным нужные инструменты и потоки для внедрения подхода, ориентированного на данные ИИ.

ИИ, ориентированный на данные: парадигма и инструментальное пространство

Поскольку старая поговорка Мусор на входе, мусор на выходе приобретает новый смысл в рамках новой парадигмы ИИ, ориентированного на данные, изменения глубоко затронули процесс разработки решений для науки о данных, а также инфраструктуры и продуктов, которые сделали это возможным. Типичный процесс разработки и инструменты для его поддержки не претерпели значительных изменений, о чем говорится в Отчете Anaconda за 2021 год: существует огромная потребность в корпоративных инструментах для правильной поддержки групп данных при подготовке данных — в основном потому, что большинство инструментов с открытым исходным кодом, не масштабируемый и специальный для каждого проекта.

Поскольку ИИ, ориентированный на данные, воплощает в себе точку зрения на то, как следует анализировать и подготавливать данные, развивается и становится доступным больше инструментов в области программирования данных и конвейеров. Вопрос больше не в том,«Как построить лучшую модель?», а скорее в том, «Как улучшить мою модель?». В рамках новой парадигмы процесс анализа и подготовки данных все больше и больше становится «сквозным» упражнением в развитии науки о данных — как данные выглядят сейчас и после улучшений, как определенное улучшение влияет на производительность моих данных, как я могу оценить качество своих данных в процессе, и этот список можно продолжить. Профилирование данных, увеличение, очистка и выбор, а также надежность теперь считаются основными элементами набора инструментов Data Science, которые необходимо комбинировать, тестировать и повторять так же часто, как мы повторяли бы модель в процессе настройки гиперпараметров.

Принимая во внимание этот сдвиг парадигмы и потребности специалистов по обработке и анализу данных, потребовался новый способ разработки решений, чтобы материализовать обещание Data-Centric AI.

YData — зачем, что и как?

YData является пионером в оказании помощи специалистам по данным в создании высококачественных обучающих наборов данных для решений Data Science и создателем DataPrepOps — операционализации подготовки данных, которая, в двух словах, выступает за постоянную итерацию набора обучающих данных, руководствуясь систематическим подходом к управлению версиями и автоматизация преобразований на основе эмпирических результатов.

YData приняла термин Data-Centric AI, поскольку его значение концептуально такое же, и стала компанией, стоящей за усилиями сообщества для этого движения.

Флагманский продукт YData — это платформа, ориентированная на данные, которая ускоряет разработку и повышает рентабельность инвестиций в решения ИИ за счет улучшения качества наборов обучающих данных.

Специалисты по данным могут использовать автоматизированное профилирование качества, получать доступ к наборам данных и улучшать их, используя, помимо других методов, современную интеллектуальную генерацию синтетических данных. На рис. 2 показано, как цикл данных и цикл модели интегрируются друг в друга и как они завершают жизненный цикл науки о данных.

Как это работает?

1 — Функция профилирования качества данных помогает им лучше понять существующие данные и то, что необходимо исправить;

2 — Встроенные IDE (Jupyter, VS Code и т. д.) и коннекторы (СУБД, ХД, облачные хранилища объектов и т. д.) позволяют специалистам по данным легко и привычно принимать решения при подготовке данных;

3 — Генерация интеллектуальных синтетических данных, которые можно использовать для случаев использования конфиденциальности, смягчения предвзятости и несбалансированных наборов данных. В конце концов, это позволяет создавать более точные сценарии для лучшего моделирования и анализа;

4 — Масштабируемые конвейеры позволяют пользователям постоянно экспериментировать с подготовкой данных в масштабе, пока не будут достигнуты хорошие результаты.

Ознакомьтесь со своими данными

Всякий раз, когда группам данных предъявляется определенное бизнес-требование, первый вопрос, на который нужно ответить, вероятно, связан с возможностью решения этой проблемы с помощью аналитики и/или науки о данных.

Давайте рассмотрим следующее: как специалист по данным, первый набор вопросов выглядит следующим образом:

"Есть ли у меня данные, чтобы ответить на бизнес-вопросы?"

"Доступны ли данные? Где?»

Как только команда Data Science получает доступ к данным, возникают другие проблемы и вопросы, на этот раз уже о тонкостях самих данных:

"У меня есть недостающие данные?"

"Как ведут себя мои отсутствующие данные?"

"У меня есть ярлыки? Они доверчивы? Как проходил процесс маркировки?"

Мои данные слишком зашумлены?

На все эти вопросы необходимо ответить с помощью одномерного и многомерного анализа, который отнимает много времени и часто проводится отдельно для каждого проекта. Сложность этого возрастает экспоненциально с увеличением количества столбцов и строк в наборе данных.

YData предлагает стандартизированное и визуальное понимание данных, а также встроенные функции для обозначения потенциальных проблем, таких как высокая доля отсутствующих данных, бесконечные значения, несоответствия, асимметрия, высокая корреляция, высокая мощность, нестационарность и т. д. профилирование данных не только помогает в технико-экономическом обосновании разработки проектов Data Science, но и согласовывает бизнес с техническими командами.

В конце концов, в начале у обеих сторон есть ожидания — с точки зрения бизнеса это может быть достижение 90% точности в определении определенного поведения, а с технической стороны — достижение целей и выполнение в установленные сроки. ожидания рынка.

Но когда специалисты по данным тратят 80% своего времени на очистку и подготовку данных, как они могут планировать дальнейшие действия и проверять несколько гипотез? И если грязные данные представляют собой проблему, как мы можем понять их быстрее и поставить всех на одну доску? Профилирование данных играет большую роль в обеспечении быстрого, но глубокого понимания существующих данных и экономии времени и денег в процессе подготовки данных и итерациях с бизнес-группами. Он не только предоставляет информацию об особенностях набора данных, но и предупреждает о том, что может быть ошибкой в ​​самих данных. Рисунок 3 иллюстрирует оба сценария.

Генерация синтетических данных

Синтетические данные — это искусственно сгенерированные данные, которые не соответствуют ни одной отдельной записи. Хотя синтетические данные напоминают реальные, они обеспечивают как ценность для бизнеса, так и соблюдение правил конфиденциальности. Синтетические данные — это идеальное решение для безопасного обмена данными о конфиденциальности, что способствует инновациям и сотрудничеству, поскольку снижает риск повторной идентификации профиля, но не только. На самом деле, это может быть мощным инструментом в тех случаях, когда сбор данных является дорогостоящим и требует много времени (например, редкие события и аномалии, такие как случаи использования при обнаружении мошенничества или страховых выплатах), а также в случаях, когда существует явный дисбаланс классов. (например, проблемы предвзятости и справедливости, как мы находим в примерах использования оценки кредитного риска).

Генерация синтетических данных, способных отражать основные статистические свойства реального и лежащего в основе поведения в реальном мире, намного дешевле по сравнению со сбором или маркировкой больших наборов данных при поддержке разработки проектов Data Science без ущерба для конфиденциальности. Синтетические данные — это будущее развития науки о данных, согласно нескольким источникам. Синтетические данные могут иметь решающее значение для специалистов по данным, предоставляя им необходимые инструменты и данные.

YData поддерживает синтез структурированных данных, как табличных, так и временных рядов (например, транзакционные данные). В рамках платформы процесс генерации синтетических данных осуществляется через пользовательский интерфейс, API, а также программно для более контролируемого, настраиваемого и гибкого процесса синтеза. Его можно использовать для синтеза данных для многих приложений науки о данных, таких как увеличение, балансировка или вменение пропущенных значений, а также для целей обмена внутри организации. На рис. 4 показан процесс генерации синтетических данных, который может быть одним из строительных блоков полного решения для обработки данных.

Конвейер подготовки данных

Настройка гиперпараметров — это процесс оптимизации параметров, часто связанный с одним из этапов создания оптимальной производительности модели машинного обучения. Главный вопрос, на который должен ответить этот процесс, можно резюмировать так: "Какие параметры модели лучше всего оптимизируют производительность моей модели?". На самом деле, тот же вопрос относится и к процессу построения правильного конвейера подготовки данныхКакие шаги подготовки данных следует включить для повышения производительности моей модели?.

Конвейеры YData позволяют командам специалистов по данным легко создавать масштабируемые конвейеры в качестве строительных блоков, изучая и сравнивая влияние различных решений по подготовке данных. Строительные блоки можно определить как программно, так и путем сборки различных Jupyter Notebooks или скриптов Python.

Помимо гибкого движка Pipeline, вы также можете найти встроенные функции для заполнения пропущенных значений для табличных и временных рядов с высокой долей пропущенных значений, создания синтетических данных для дополнения редких событий или увеличения всего набора данных, а также многие другие рецепты для общего качества данных. случаи использования.

Отладка данных — понять неизвестное

После того, как модель поступает в производство или даже во время проверки начальной разработки модели по сравнению с проверочным набором, производительность модели может ухудшиться. Основной причиной этой проблемы может быть не сама модель, а проблема с качеством данных: некоторые записи могут быть неправильно помечены или некоторые записи могут содержать поврежденную или неправильную информацию. Как Data Scientist может идентифицировать эти записи?

YData Pipelines — это мощный ресурс для понимания влияния отдельных записей на производительность модели путем сравнения модели с обучающими и проверочными наборами. Наша встроенная система подсчета очков, которая включает, но не ограничивается Q-Score (измеряет положительную реляционную алгебру запроса), является мощным шагом к лучшему пониманию того, что пошло не так.

Наконец, что может быть лучше, чем визуальное сравнение двух наборов данных, чтобы лучше определить источник проблемы? Можно легко сравнить распределение и поведение двух отдельных наборов данных с помощью всеобъемлющего визуального опыта.

Что дальше?

ИИ, ориентированный на данные, несомненно, является большим прорывом в разработке решений ИИ. Эта концепция позволяет специалистам по данным максимально эффективно использовать активы данных организации и позволяет им делать больше и лучше в приятной форме. Ожидается, что в ближайшие годы появится больше инструментов ИИ, ориентированных на данные, каждый из которых будет иметь свою специализацию, от профилирования данных, маркировки, мониторинга, синтетических данных, версии данных и происхождения, до дрейфа концепций и причинно-следственного анализа.

Фабиана Клементе является CDO в YData.

Ускорение работы ИИ с улучшенными данными.

YData предоставляет первую платформу разработки данных для команд Data Science.