Декларативное машинное обучение и будущее науки о данных

РЕЗЮМЕ. Декларативное машинное обучение может сократить время, усилия и навыки, необходимые для внедрения машинного обучения в производство в самых разных корпоративных средах.

Этот блог спонсируется Predibase

Ирония моделей машинного обучения (ML) заключается в том, что, хотя они автоматизируют бизнес-решения и процессы, их создание требует много ручных усилий. Команды специалистов по обработке и анализу данных с трудом справляются со всем сложным программированием, необходимым для внедрения моделей машинного обучения в производство. Квалифицированные, разбирающиеся в Python специалисты по данным и инженеры машинного обучения могут потратить месяцы на обучение, настройку и, наконец, развертывание моделей машинного обучения. Но если они используют решения AutoML для упрощения процесса построения модели, они рискуют потерять видимость и контроль.

Поэтому неудивительно, что три четверти предприятий, участвовавших в недавнем опросе KDNuggets, заявили, что большинство их моделей машинного обучения никогда не попадают в производство. Это лишь один из многих результатов исследований, которые указывают на отрезвляющую нехватку рентабельности инвестиций в инициативы AI/ML.

Но есть повод для надежды. Новый подход, называемый декларативным ML, вдохновленный декларативным программированием, может помочь командам специалистов по обработке и анализу данных реализовать модели ML с меньшими затратами времени и усилий.

Ценность декларативного машинного обучения (ML)

В рамках декларативного машинного обучения группы специалистов по обработке и анализу данных определяют, что они хотят прогнозировать, классифицировать или рекомендовать, а затем пусть программное обеспечение определяет, как это сделать. Они вводят интуитивно понятные команды без необходимости указывать код, правила или другие элементы, которые выполняются в этих командах. Если это звучит знакомо, то так и должно быть, потому что такие популярные языки, как язык гипертекстовой разметки (html) и язык структурированных запросов (SQL), используют тот же подход. Эти языки получили широкое распространение, позволив менее опытным пользователям определять то, что они хотят, не беспокоясь о том, как это будет сделано. Более продвинутые пользователи могут по-прежнему проверять, что происходит под обложками, если они хотят.

Декларативная система ML обучает модели ML на исторических данных, применяя различные функции, параметры и алгоритмы по умолчанию. Используя всего лишь простой файл конфигурации, который определяет модель и данные, декларативный ML позволяет специалистам по обработке и анализу данных и инженерам одинаково обучать модели без базовых знаний о таких фреймворках, как PyTorch или TensorFlow. Они могут принять параметры по умолчанию или настроить их в соответствии с индивидуальными динамическими требованиями, а затем внедрить модели и отслеживать их.

Этот гибкий подход поддерживает проекты машинного обучения, которые варьируются от простых до сложных, в зависимости от варианта использования и навыков пользователя. Фактически, этот пользователь может быть аналитиком, разбирающимся в SQL, а не специалистом по данным, разбирающимся в python. Поскольку это декларативно, они могут проверять и изменять параметры на предпочитаемом уровне детализации.

Декларативное машинное обучение позволяет пользователям указывать то, что они хотят,

и пусть программа сама разберется, как это сделать

Декларативное машинное обучение похоже на инструменты AutoML, которые также делают выбор по умолчанию и автоматизируют часть или весь жизненный цикл машинного обучения. Но AutoML может скрывать определенные элементы в автоматизированных рабочих процессах ради простоты, уменьшая возможности специалистов по обработке и анализу данных настраивать или объяснять, что происходит. Декларативное машинное обучение обеспечивает полную видимость и контроль.

Преимущества. Декларативное машинное обучение, хорошо спроектированное и реализованное, может упростить реализацию сложных алгоритмов. Он позволяет аналитикам данных и инженерам выполнять базовые проекты машинного обучения или даже сложные проекты, такие как обработка естественного языка или компьютерное зрение, не дожидаясь более опытных коллег, таких как специалисты по данным и инженеры машинного обучения. С помощью декларативного машинного обучения они могут повысить производительность команды, тратя меньше времени на мелочи и больше времени на инновации. Они могут повысить гибкость, собирая и повторно используя готовые модульные функции и модели. Наконец, они могут следить за деталями, чтобы обеспечить объяснимость и управляемость.

Прецедент SQL. История языка структурированных запросов (SQL) демонстрирует мощь декларативных подходов к программированию. SQL способствовал внедрению реляционных баз данных в 1980-х, 90-х годах и позже, упрощая манипулирование данными и их поиск. Например, аналитики определяют, какие записи они хотят запрашивать, но им не нужно указывать, как их получить — например, использовать ли индекс. Спустя десятилетия SQL остается языком общения аналитиков для управления проектами бизнес-аналитики.

Недавно группы специалистов по данным в нескольких крупных технологических компаниях применили декларативный подход к разработке своих моделей машинного обучения. Их проекты включают проект Overton в Apple, Looper в Meta и Ludwig в Uber.

Овертон. Apple разработала этот проект, чтобы позволить своим специалистам по данным и разработчикам создавать и внедрять машинное обучение или глубокое обучение без написания кода. Они предоставляют схему, включающую входные данные, задачи модели и поток данных, поддерживающий эти задачи. Затем Овертон компилирует схему для таких фреймворков, как TensorFlow или CoreML от Apple, и находит правильную архитектуру и гиперпараметры для поддержки этой схемы. Приложения на базе Overton обработали миллиарды запросов и триллионы записей.

Лупер. Meta разработала проект Looper по тем же причинам, что и Apple. Looper помогает создавать и эксплуатировать модели ML для поддержки сценариев использования в реальном времени, таких как прогнозирование и классификация. Основываясь на спецификациях высокого уровня от пользователя, Looper рекомендует конфигурации моделей, параметров, функций и т. д. на основе подготовленных чертежей. По состоянию на апрель 2022 года Looper размещал 700 моделей ИИ и генерировал 4 миллиона выходных данных ИИ в секунду.

Людвиг. Проект Uber Ludwig рекомендует функции и выходные данные моделей на основе простых пользовательских команд, а также позволяет пользователям вводить дополнительные спецификации для обработки функций, обучения моделей и т. д. Они могут адаптироваться и масштабироваться, добавляя модели, метрики и функции в унифицированную систему конфигурации. Стартап Predibase предлагает декларативную систему машинного обучения на базе Ludwig.

Еще одним нововведением в этой области является язык прогнозирующих запросов (PQL), предлагаемый через Predibase, который предоставляет SQL-подобные команды для управления жизненным циклом машинного обучения. PQL помогает специалистам по обработке и анализу данных использовать знакомый декларативный интерфейс при работе с данными, а затем обучать, развертывать и отслеживать модели машинного обучения.

Декларативное машинное обучение на практике

Чтобы понять, как это выглядит на практике, давайте рассмотрим, как декларативный ML сравнивается с традиционными подходами к трем этапам жизненного цикла ML: проектирование данных и признаков, разработка моделей и производство моделей.

Инжиниринг данных и функций

Традиционный подход. На этом этапе специалист по данным и инженер данных получают и преобразуют входные данные из различных источников. Они применяют общие ярлыки к историческим результатам, выполняют исследовательский анализ данных и получают наиболее показательные входные данные — называемые функциями — которые, по их мнению, лучше всего предсказывают результаты.

Декларативный подход к машинному обучению. Декларативная система машинного обучениявыберет и соберет функции на основе простой спецификации специалиста по данным или даже аналитика данных. Например, для обнаружения мошенничества с использованием таких функций, как описание покупки и тип транзакции, пользователю достаточно указать типы данных функций. В этом случае тип данных для описания покупки — «текст», а для типа транзакции — «категория». Затем декларативная система ML представляет предлагаемый набор функций и структуру модели на основе типов данных.

Разработка модели

Традиционный подход. На этом этапе специалист по данным экспериментирует с различными методами машинного обучения. Они могут варьироваться от простых линейных регрессий, которые определяют взаимосвязь между функциями и выходными данными, до нейронных сетей глубокого обучения, которые используют несколько моделей для таких вариантов использования, как классификация изображений или обработка естественного языка. Специалист по данным тратит время на обучение, настройку и повторную настройку параметров, чтобы делать точные прогнозы. Им также может потребоваться синхронизировать такие элементы, как многоуровневые алгоритмы, которые взаимодействуют друг с другом в искусственной нейронной сети для глубокого обучения.

Декларативный подход к машинному обучению. Декларативная система машинного обучения значительно автоматизирует этот этап. На основе нескольких основных команд пользователя система создает отдельные модели, выполняющие перечисленные выше задачи. Специалист по данным или аналитик анализирует каждую модель и то, как она соотносится с другими, утверждает или корректирует каждую из них и запускает автоматизированный процесс обучения. Система проверяет выходные данные и корректирует функции, параметры и модели, чтобы сделать их более точными. Пользователи могут контролировать, одобрять или переопределять шаги по пути.

Как и в AutoML, пользователи могут обучать модели, не беспокоясь о деталях. Но декларативный ML позволяет пользователям улучшать свои модели, повторяя их прозрачным и гибким способом. Они могут проверять и вносить определенные изменения в функции, параметры и модели в зависимости от своих навыков.

Модельное производство

Традиционный подход. Как только модель ML соответствует требованиям, инженер ML берет обученную модель у специалиста по данным и реализует ее в производственных приложениях или рабочих процессах. Инженер машинного обучения отслеживает операции модели, включая ее производительность, точность, стоимость и потенциальную погрешность. Они также сотрудничают с распорядителями данных для управления моделью, каталогизируя ключевые показатели и вмешиваясь, когда это необходимо, для замены или повторного обучения моделей.Этот процесс может стать сложным, учитывая различные требования к инфраструктуре, обслуживанию и оповещению различных модели и варианты использования.

Декларативный подход к машинному обучению. Хорошо спроектированная система декларативного машинного обучения может помочь на этом этапе, абстрагируя сложную инфраструктуру машинного обучения и предоставляя метрики для мониторинга моделей. Это помогает идентифицировать дрейфующие входные данные или выходные данные модели; проверять функции, параметры и модели — и рекомендовать действия по оптимизации этих элементов или устранению проблем. Например, Predibase предоставляет «сине-зеленые» обновления, которые позволяют пользователям быстро развертывать модели на конечной точке с высокой пропускной способностью и малой задержкой.

Заключение

Таким образом, декларативный ML:

  • Был принят Uber (Людвиг), Apple (Овертон) и Meta (Лупер).
  • Может предложить более высокую абстракцию, обеспечивающую гибкость, автоматизацию и простоту использования.
  • Может повысить эффективность на всех жизненных циклах машинного обучения, включая проектирование функций, разработку моделей и производство.

Хотя мы находимся на ранней стадии внедрения, декларативное машинное обучение может сократить время, усилия и навыки, необходимые для внедрения машинного обучения в производство в самых разных корпоративных средах. Если вы хотите увидеть, как декларативный ML выглядит на практике, я бы посоветовал запросить демонстрацию в Predibase, чтобы узнать больше.

************************************************

Это сообщение изначально было опубликовано на Eckerson.com

Автор: Кевин Петри

Биография автора: Кевин Петри является вице-президентом по исследованиям и руководит исследовательским отделом в Eckerson Group, где он занимается такими темами, как DataOps, наблюдаемость данных, конвейеры данных и жизненный цикл машинного обучения. Кевин запустил, построил и возглавил прибыльную группу по обслуживанию данных для EMC Pivotal в Северной и Южной Америке и регионе EMEA, а также провел полевое обучение в поставщике программного обеспечения для интеграции данных Attunity (теперь часть Qlik). Кевин часто выступает с публичными выступлениями и является автором двух книг о потоковой передаче данных, а также является инструктором по управлению данными в eLearningCurve.

О компании: Eckerson Group — международная исследовательская и консалтинговая фирма, специализирующаяся исключительно на анализе данных. Наши эксперты имеют значительный опыт в области анализа данных и специализируются на стратегии данных, архитектуре данных, управлении данными, управлении данными, науке о данных и анализе данных.

************************************************

Надеемся, вам понравилась эта статья! Нажмите кнопку аплодисментов👏ниже или сбоку, чтобы другие тоже могли узнать об этой статье!