Этот блог был написан совместно Мартином Руснаком из rusnakconsulting.com и Буджаром Баку.

Не так давно (возможно, где-то это все еще так) в компаниях было несколько групп одномерных данных. Каждая команда состояла либо только из специалистов по данным, бизнес-аналитиков или инженеров по данным. С такой настройкой компании изо всех сил пытались интегрировать продукты данных в свою более широкую программную архитектуру. Общепринятыми причинами этого являются:

  • Отсутствие общения между командами. Требования, имеющие приоритет в одной из них, не были согласованы с другими командами. Например, если команде Data Science нужно было изучить новые данные маркетинговой кампании, ей приходилось ждать, пока команда Data Engineering сделает эти данные доступными.
  • Рассмотрение решений изолировано. Специалисты по данным могут не учитывать производительность решения во время вывода, а оптимизировать точность во время тестирования и оценки. Однако такой вывод станет огромной проблемой для оперативной группы.

В целом, при построении сквозных процессов, таких как автоматизация, оркестровка и тестирование, были огромные пробелы.

Шляпы современных специалистов по работе с данными

Для решения проблем с одномерными командами на помощь пришел проверенный подход кросс-функциональных команд. В этих командах есть участники, которые больше занимаются аналитикой данных, наукой о данных, машинным обучением и т. д. Они работают вместе, обеспечивая большую глубину, более широкий объем информации и разнообразие мнений для достижения своей цели.

Мы считаем, что нет четких границ между ролями, которые можно играть в команде. Поэтому в этом посте мы называем эти шляпы. Шляпа — это позиция, которую кто-то занимает при обсуждении или решении проблемы.

Каждая команда уникальна, однако это наиболее часто используемые термины для описания этих шляп в команде данных.

Инженер данных

Шляпа Data Engineering создает надежные конвейеры данных и инфраструктуру данных. Они служат связующим звеном с командой инфраструктуры для развертывания специализированных компонентов и обновлений. Они заботятся об интеграции других источников данных и осуществлении проверок качества данных. При необходимости версионность данных реализуется этой шляпой. Большая часть работы также связана с оптимизацией производительности с точки зрения приема данных и ответов на запросы. Наиболее часто используемые инструменты:

  • Оркестровка, т.е. Воздушный поток, Дагстер, Префект
  • Обработка данных, например. Панды, Искра, Даск
  • Хранилище данных, например. BigQuery, Redshift, Улей
  • Версии данных, например. ДВК, толстокожий

Инженер-аналитик

Инженерная аналитика занимается в первую очередь очисткой и преобразованием данных. Вместе со шляпой инженера данных они привносят лучшие практики разработки программного обеспечения в код аналитики, такие как контроль версий, автоматическое тестирование и развертывание. Обычно используемые инструменты:

  • Хранилище данных, например. BigQuery, Redshift, Снежинка
  • Преобразование, например. дбт, форма данных

Аналитик данных

Шляпа аналитика данных исследует данные в поисках идей для поддержки принятия решений на основе данных. У них тесное сотрудничество и навыки совпадают с инженером по аналитике. Они визуализируют данные, чтобы помочь всем разобраться в них. Используемые инструменты:

  • Визуализация, например. Метабаза, Looker, Power BI, Tableau
  • Преобразование, например. БД, форма данных, SQL

Специалист по данным

Шляпа Data Scientist находит лучший способ моделирования данных для прогнозов. У них есть сильные навыки в разработке функций. Люди, носящие эту шляпу, обладают глубокими знаниями в области методов машинного обучения, статистики и аналитики. Используемые инструменты:

  • Библиотеки машинного обучения, такие как scikit-learn, XGboost.
  • Библиотеки глубокого обучения, например. Тензорфлоу, ПиТорч
  • Отслеживание экспериментов, например. MLflow, Kubeflow, цель
  • Магазин функций, например. Праздник, Хопсворк
  • Объяснимость, т.е. Лайм, ШАП

Инженер по машинному обучению

Шляпа Machine Learning Engineering дает глубокие знания передового опыта разработки программного обеспечения. Они создают модели машинного обучения для решения бизнес-задач и интегрируют их с текущей инфраструктурой организации. Они создают инфраструктуру для A/B-тестирования, обучения распределенной модели и оркестрации рабочих процессов машинного обучения, а также расширяют существующие платформы. Используемые инструменты:

  • Оркестрация: MLflow, Kubeflow, Flyte, Kubernetes
  • Подача моделей, например. seldon-core, BentoML, TensorFlow Serving, Torchserve
  • Обучение, например. Хоровод, Рэй
  • Магазин функций, например. Праздник, Хопсворк

млн операций в секунду

Шляпа MLOps фокусируется на интеграции автоматизации и мониторинга на всех этапах построения системы машинного обучения. Они привносят в команду лучшие практики DevOps, такие как интеграция, развертывание, мониторинг моделей и т. д. Наиболее часто используемые инструменты:

  • Мониторинг модели, например. почемулабс, видимо
  • Автоматизация, например. Gitlab CI, действия Github
  • Инфраструктура, например. Terraform, Kubernetes, диаграммы Helm

Менеджер по продукту

Шляпа менеджера по продукту обычно отделена от других очень технических шляп. Они следят за тем, чтобы разрабатываемые разработки приносили пользу пользователям и заинтересованным сторонам.

Команда, скорее всего, не будет содержать все эти шляпы. Какие из них необходимы, зависит от размера команды, стоящей перед ней задачи и многих других факторов. Часто один человек покрывает более одной шляпы.

В Data Max мы сосредоточены на том, чтобы охватить все упомянутые здесь шляпы. Мы гордимся своим опытом и готовы поделиться своими знаниями. Свяжитесь с нами по адресу [email protected].

Этот пост изначально был размещен в https://www.data-max.io/blog.