Специалисты по данным знакомы с проблемами, связанными с доступом, подготовкой и использованием данных для аналитических проектов и моделей машинного обучения. Мы часто слышим, что:

  1. Необработанные данные требуют сложной подготовки, прежде чем их можно будет использовать;
  2. Код подготовки данных часто бывает трудно разделить между специалистами по данным и инженерными группами; и
  3. Инструменты конвейера данных могут помочь решить часть проблемы, но их сложно настроить и обслуживать, и часто они недоступны для небольших групп специалистов по обработке и анализу данных.

В этой статье мы рассмотрим, как ByteHub решает эти проблемы с помощью нашего хранилища функций на основе Python.

Задача 1: Упрощение подготовки данных

Типичные рабочие процессы обработки данных часто включают создание блокнотов Python, которые используются для:

  • Извлекайте и подготавливайте необработанные данные из любого места, где они хранятся, или из внешних API;
  • Выполните все необходимые шаги разработки функций, прежде чем его можно будет использовать; тогда
  • Обучите и проверьте модель.

Объединение всех этих задач в одном блокноте может привести к тому, что код будет сложным, трудным в обслуживании, трудным для понимания и совместного использования.

Хранилища функций — это технология, предназначенная для обеспечения интерфейса между данными и моделями. Хранилище функций ByteHub спроектировано так, чтобы к нему можно было легко получить доступ из сценария или блокнота, и оно позволяет специалистам по данным хранить и систематизировать необработанные данные вместе с подготовительным кодом. С помощью этого простого изменения мы можем значительно упростить наш код обучения модели, исключив подготовку данных и просто запросив предварительно подготовленные функции обучения из хранилища функций.

Наборы данных временных рядов представляют собой определенные проблемы, когда речь идет о том, чтобы обеспечить постоянное выравнивание объектов и повторную выборку в соответствии с требуемым временным интервалом. Мы интегрировали эти функции в наш магазин функций, сделав его подходящим для решения различных задач машинного обучения в энергетике, финансах, розничной торговле и других секторах.

Задача 2: обмен данными

Упрощение подготовки и проектирования данных становится еще более полезным, когда их можно повторно использовать и совместно использовать, например:

  • Предоставление различным специалистам по данным экономии времени за счет повторного использования данных и функций в разных проектах; и
  • Упрощение времени развертывания и проектирования за счет того, что производственные модели могут совместно использовать ту же подготовку данных, что и во время обучения модели.

Для этого мы разрешаем прикреплять описания и метаданные к каждой функции. Специалисты по обработке и анализу данных могут быстро искать функции и использовать их в различных моделях.

Базовые данные могут храниться в любом поставщике облачных хранилищ, что означает, что к ним легко получить доступ как с ноутбуков / виртуальных машин специалистов по данным, так и с других развертываний облачных служб / моделей.

Задача 3: не усложнять

Существует целый ряд инструментов обработки данных, помогающих создавать конвейеры данных, так зачем нужен еще один? Мы обнаружили, что многие инструменты часто сложны в настройке и использовании, что затрудняет их внедрение учеными данных в рамках их рабочего процесса. Проекты по науке о данных часто начинаются как небольшие проверки концепций без поддержки большой группы инженеров для предоставления инфраструктуры и обслуживания сложного инструмента обработки данных.

Магазин функций ByteHub можно установить локально, что позволит вам запустить магазин функций за считанные секунды. Когда вы перерастете это, его просто установить в облачной базе данных или получить доступ из управляемой службы.

После установки ByteHub работает с фреймами данных Pandas, позволяя сохранять, преобразовывать и использовать данные в знакомом формате.

Нравится то, что вы прочитали?