Insights vs Product vs Engineering Data Science, и как каждая из них приносит пользу вашему бизнесу
Роли науки о данных в технологическом бизнесе делятся на три категории:
- Статистика. Использование науки о данных для понимания пользователей, продуктов и бизнеса.
- Продукт. Использование науки о данных для тестирования и оптимизации продукта или функции.
- Инжиниринг. Создание моделей и данных, которые затем интегрируются в функции продукта или используются другими заинтересованными сторонами в организации.
На практике эти подходы могут сильно различаться, требуя различных инструментов, опыта и операционных процессов. Тем не менее, предприятия только начинают дифференцировать эти формы науки о данных. Правильно разграничивая эти роли, компании могут более эффективно нанимать, развивать и удерживать таланты в области обработки данных.
В этой статье мы обсудим различия между наукой о данных Insights, Product и Machine Learning. Ниже приводится сводка основных отличий и примеры каждого приложения. Мы рассмотрим эти практики в следующих измерениях: цели, результаты и наборы технологий.
- Цель. Какова фундаментальная роль специалиста по данным? С какими заинтересованными сторонами они сотрудничают? Какую ценность они представляют для организации?
- Результаты. Какие типы результатов производят эти роли? Чем отличаются стаффинг и спринты?
- Технический стек. Какие типы инструментов и языков программирования используются?
1. Цель
Наука о данных
По сути, цель анализа — использовать данные для более глубокого понимания нашего бизнеса — его продуктов, сотрудников, клиентов и всего остального, что взаимодействует в бизнес-экосистеме.
Это понимание определяется бизнес-вопросами, гипотезами и информационными потребностями заинтересованных сторон. К заинтересованным сторонам, заинтересованным в анализе, относятся руководители, маркетинговые команды, менеджеры по продуктам, HR, служба поддержки клиентов или любые другие функции, которые выиграют от понимания своего бизнеса с качественной и количественной точки зрения. По мере того, как специалисты по обработке и анализу данных производят идеи и результаты, которые удовлетворяют вопросы или потребности заинтересованных сторон, они вносят свой вклад в коллективное знание бизнеса.
Специалисты по аналитике в Uber или Lyft могут анализировать такие вопросы, как:
- Как изменения цены влияют на удержание пользователей? Как это меняется в зависимости от интенсивности конкуренции и ценовой эластичности на данном рынке?
- Сокращает ли отправка push-уведомлений водителям время до начала поездки (т. е. время между прибытием водителя и фактическим началом поездки)?
- Как запуск в Хорватии повлияет на MAU (активных пользователей в месяц) и поездки?
- Как повышение цен влияет на удержание пользователей?
Наука о продуктах
Цель науки о данных о продукте состоит в том, чтобы (а) определить потенциальные улучшения продукта или функции, (б) работать с инженерами для проведения эксперимента, (в) провести эксперимент и (г) представить результаты заинтересованным сторонам. В этом процессе используются некоторые из тех же навыков, что и у ученых-аналитиков, но гораздо больше внимания уделяется A/B-тестированию.
Проблемы, с которыми могут столкнуться специалисты по обработке данных в сфере райдшеринга:
- Как мы можем ускорить вызов такси после того, как пользователи откроют приложение? Как, в свою очередь, это влияет на вовлеченность и удержание пользователей?
- Как новый дизайн пользовательского интерфейса влияет на вовлечение и удержание пользователей?
Заинтересованные стороны для специалистов по данным о продуктах отличаются от их коллег из Insights. Они тесно сотрудничают с инженерными командами и представляют свои выводы менеджерам по продукту и владельцам, которые затем дают зеленый/красный свет окончательному выпуску продукта.
Инженерная наука о данных
И наоборот, проектирование DS сосредоточено на создании данных и алгоритмов для характеристик продукта. В то время как бизнес-вопросы и гипотезы определяют стратегическую аналитику, примеры использования определяют науку о продуктах. Мы должны отметить, что инженерная наука о данных в настоящее время дополнительно дифференцируется на:
- Инженеры машинного обучения: те, кто создает модели, интегрированные в продукты.
- Инженеры данных: те, кто создает массивные наборы данных для использования в продукте.
- Инженеры аналитических данных: те, кто создает массивные наборы данных для аналитического использования (например, другими специалистами по данным).
Основное различие между ними и другими специалистами по данным заключается в том, что они в первую очередь сосредоточены на производстве данных как на выходе, а не на синтезе данных.
В рамках этого бизнес-кейса совместного использования поездок есть несколько возможных вариантов использования:
- Создайте модель, которая рассчитывает оптимальные скачки цен на основе таких факторов, как спрос, время суток и местоположение.
- Создайте набор данных о манхэттенских расстояниях для каждой поездки, который может быть использован для анализа специалистами по данным.
- Создайте модель, используемую для персонализации сообщений электронной почты пользователям.
Поскольку эти процессы требуют больших, быстро меняющихся данных, используемая базовая инфраструктура сильно отличается от стратегической науки о данных. Кроме того, эти специалисты по данным в основном работают с техническими заинтересованными сторонами — инженерами, специалистами по данным и техническими руководителями.
2. Результаты
Наука о данных
Результаты анализа, как правило, попадают в следующие категории:
- Презентации — напр. колоды и отчеты
- Панели мониторинга
- Данные и конвейеры данных
- Ноутбуки — например. Юпитер, Google Collab
Конечные результаты анализа являются автономными — удобоваримая, полезная информация, которая помогает заинтересованным сторонам принимать обоснованные решения о своем бизнесе. В идеале выводы из более ранних рабочих потоков включаются в будущие анализы, что приводит к повторяющемуся, развивающемуся набору идей. Ключом к этим спринтам является сосредоточенность, то есть обеспечение того, чтобы бизнес-вопросы и полученные идеи были ограничены, насколько это возможно, чтобы максимизировать ценность результатов.
Периодичность доставки зависит от сложности данных и анализа и варьируется от пары недель до года. Часто специалисты по данным работают над несколькими анализами одновременно. Опытный специалист по данным может эффективно управлять коммуникациями и ожиданиями со своими заинтересованными сторонами.
Наука о продуктах
Результаты для науки о данных о продукте, как правило, имеют тот же формат, что и наука о данных Insights; однако их результаты менее стратегически ориентированы и более определены по объему. В частности, объем анализа будет заключаться в эксперименте, который проводят специалисты по данным и команда.
В презентациях по науке о продуктах важно убедиться, что (а) результаты эксперимента учитывают любые операционные или технические проблемы, возникшие во время эксперимента, и (б) результаты правильно интерпретируются заинтересованными сторонами. Мы должны обеспечить правильное понимание прибавок и статистических значений по мере того, как они передаются по цепочке управления компании. Мы должны отметить — небольшое изменение в приложении может оказать существенное влияние на бизнес, поэтому проверка своей работы в области науки о продуктах имеет первостепенное значение.
Инженерная наука о данных
И наоборот, результаты и ритм доставки для специалистов по обработке и анализу данных инженера больше напоминают инженера (конечно). Эти результаты могут включать:
- Наборы данных и конвейеры данных
- API
- Автоматизированные процессы (например, конвейеры Kubeflow, Airflow или Serverless)
- Код, содержащий модели машинного обучения
Эти результаты часто становятся частью продукта и, следовательно, должны создаваться инженерами, владеющими функцией или продуктом. Во многих сценариях специалист по данным будет внедрять или сотрудничать с командой инженеров для поддержки реализации статистических процессов.
3. Технический стек
Идеи и наука о данных о продуктах
Эти специалисты по данным используют в основном один и тот же набор инструментов, который обычно включает:
- Блокнот — напр. Юпитер, Коллаб
- Питон или R
- SQL и реляционная база данных
- Программное обеспечение для визуализации данных — например. Табло, Перископ, Студия данных
- Гитхаб
Однако, в зависимости от требований анализа, эти специалисты по данным могут использовать широкий набор инструментов, таких как Excel, службы облачной платформы (вычисления, хранилище и т. д.) или программное обеспечение для машинного обучения (например, TensorFlow).
Инженерная наука о данных
Инженерная наука о данных имеет более широкий набор инструментов и языков для охвата. Это также требует знания пограничной области, поскольку оно включает в себя аспекты инженерии. Это основные области инженерных данных и связанные с ними инструменты: *
- Языки запросов больших данных: SQL, Spark, Scala, Hive.
- Базы данных: реляционные, NoSQL
- Машинное обучение: Python, Tensorflow
- DevOps: Docker, Kubernetes, Git Actions, Jenkins
- Облачная инфраструктура: вычисления, хранение, управление доступом
* Обратите внимание, что в зависимости от компании, используемых систем и вариантов использования эти инструменты могут сильно различаться. (Также обратите внимание, что я не специалист по инженерным данным, поэтому я могу говорить только об инструментах, которые знаю).
Тремя основными платформами облачных вычислений являются Google Cloud Platform, Amazon Web Services и Microsoft Azure. Хотя это разные платформы, большинство сервисов очень похожи и даже взаимозаменяемы (с некоторым хорошо спланированным кодом).
В заключении
Теперь мы обсудили некоторые ключевые различия между формами науки о данных. По мере развития практики науки о данных мы должны учитывать, как эти разные роли играют в нашем бизнесе. Компании начали сомневаться в ценности, которую дает наука о данных, но многие недостатки связаны с тем, что не используют нужных людей в нужном месте. Я надеюсь, что имея четкое представление об этих ролях, вы сможете лучше понять, как каждая из этих ролей обеспечивает ценность в вашей организации.