Этот блог был написан совместно Мартином Руснаком из rusnakconsulting.com и Буджаром Баку.
Не так давно (возможно, где-то это все еще так) в компаниях было несколько групп одномерных данных. Каждая команда состояла либо только из специалистов по данным, бизнес-аналитиков или инженеров по данным. С такой настройкой компании изо всех сил пытались интегрировать продукты данных в свою более широкую программную архитектуру. Общепринятыми причинами этого являются:
- Отсутствие общения между командами. Требования, имеющие приоритет в одной из них, не были согласованы с другими командами. Например, если команде Data Science нужно было изучить новые данные маркетинговой кампании, ей приходилось ждать, пока команда Data Engineering сделает эти данные доступными.
- Рассмотрение решений изолировано. Специалисты по данным могут не учитывать производительность решения во время вывода, а оптимизировать точность во время тестирования и оценки. Однако такой вывод станет огромной проблемой для оперативной группы.
В целом, при построении сквозных процессов, таких как автоматизация, оркестровка и тестирование, были огромные пробелы.
Шляпы современных специалистов по работе с данными
Для решения проблем с одномерными командами на помощь пришел проверенный подход кросс-функциональных команд. В этих командах есть участники, которые больше занимаются аналитикой данных, наукой о данных, машинным обучением и т. д. Они работают вместе, обеспечивая большую глубину, более широкий объем информации и разнообразие мнений для достижения своей цели.
Мы считаем, что нет четких границ между ролями, которые можно играть в команде. Поэтому в этом посте мы называем эти шляпы. Шляпа — это позиция, которую кто-то занимает при обсуждении или решении проблемы.
Каждая команда уникальна, однако это наиболее часто используемые термины для описания этих шляп в команде данных.
Инженер данных
Шляпа Data Engineering создает надежные конвейеры данных и инфраструктуру данных. Они служат связующим звеном с командой инфраструктуры для развертывания специализированных компонентов и обновлений. Они заботятся об интеграции других источников данных и осуществлении проверок качества данных. При необходимости версионность данных реализуется этой шляпой. Большая часть работы также связана с оптимизацией производительности с точки зрения приема данных и ответов на запросы. Наиболее часто используемые инструменты:
- Оркестровка, т.е. Воздушный поток, Дагстер, Префект
- Обработка данных, например. Панды, Искра, Даск
- Хранилище данных, например. BigQuery, Redshift, Улей
- Версии данных, например. ДВК, толстокожий
Инженер-аналитик
Инженерная аналитика занимается в первую очередь очисткой и преобразованием данных. Вместе со шляпой инженера данных они привносят лучшие практики разработки программного обеспечения в код аналитики, такие как контроль версий, автоматическое тестирование и развертывание. Обычно используемые инструменты:
- Хранилище данных, например. BigQuery, Redshift, Снежинка
- Преобразование, например. дбт, форма данных
Аналитик данных
Шляпа аналитика данных исследует данные в поисках идей для поддержки принятия решений на основе данных. У них тесное сотрудничество и навыки совпадают с инженером по аналитике. Они визуализируют данные, чтобы помочь всем разобраться в них. Используемые инструменты:
- Визуализация, например. Метабаза, Looker, Power BI, Tableau
- Преобразование, например. БД, форма данных, SQL
Специалист по данным
Шляпа Data Scientist находит лучший способ моделирования данных для прогнозов. У них есть сильные навыки в разработке функций. Люди, носящие эту шляпу, обладают глубокими знаниями в области методов машинного обучения, статистики и аналитики. Используемые инструменты:
- Библиотеки машинного обучения, такие как scikit-learn, XGboost.
- Библиотеки глубокого обучения, например. Тензорфлоу, ПиТорч
- Отслеживание экспериментов, например. MLflow, Kubeflow, цель
- Магазин функций, например. Праздник, Хопсворк
- Объяснимость, т.е. Лайм, ШАП
Инженер по машинному обучению
Шляпа Machine Learning Engineering дает глубокие знания передового опыта разработки программного обеспечения. Они создают модели машинного обучения для решения бизнес-задач и интегрируют их с текущей инфраструктурой организации. Они создают инфраструктуру для A/B-тестирования, обучения распределенной модели и оркестрации рабочих процессов машинного обучения, а также расширяют существующие платформы. Используемые инструменты:
- Оркестрация: MLflow, Kubeflow, Flyte, Kubernetes
- Подача моделей, например. seldon-core, BentoML, TensorFlow Serving, Torchserve
- Обучение, например. Хоровод, Рэй
- Магазин функций, например. Праздник, Хопсворк
млн операций в секунду
Шляпа MLOps фокусируется на интеграции автоматизации и мониторинга на всех этапах построения системы машинного обучения. Они привносят в команду лучшие практики DevOps, такие как интеграция, развертывание, мониторинг моделей и т. д. Наиболее часто используемые инструменты:
- Мониторинг модели, например. почемулабс, видимо
- Автоматизация, например. Gitlab CI, действия Github
- Инфраструктура, например. Terraform, Kubernetes, диаграммы Helm
Менеджер по продукту
Шляпа менеджера по продукту обычно отделена от других очень технических шляп. Они следят за тем, чтобы разрабатываемые разработки приносили пользу пользователям и заинтересованным сторонам.
Команда, скорее всего, не будет содержать все эти шляпы. Какие из них необходимы, зависит от размера команды, стоящей перед ней задачи и многих других факторов. Часто один человек покрывает более одной шляпы.
В Data Max мы сосредоточены на том, чтобы охватить все упомянутые здесь шляпы. Мы гордимся своим опытом и готовы поделиться своими знаниями. Свяжитесь с нами по адресу [email protected].
Этот пост изначально был размещен в https://www.data-max.io/blog.