Insights vs Product vs Engineering Data Science, и как каждая из них приносит пользу вашему бизнесу

Роли науки о данных в технологическом бизнесе делятся на три категории:

  • Статистика. Использование науки о данных для понимания пользователей, продуктов и бизнеса.
  • Продукт. Использование науки о данных для тестирования и оптимизации продукта или функции.
  • Инжиниринг. Создание моделей и данных, которые затем интегрируются в функции продукта или используются другими заинтересованными сторонами в организации.

На практике эти подходы могут сильно различаться, требуя различных инструментов, опыта и операционных процессов. Тем не менее, предприятия только начинают дифференцировать эти формы науки о данных. Правильно разграничивая эти роли, компании могут более эффективно нанимать, развивать и удерживать таланты в области обработки данных.

В этой статье мы обсудим различия между наукой о данных Insights, Product и Machine Learning. Ниже приводится сводка основных отличий и примеры каждого приложения. Мы рассмотрим эти практики в следующих измерениях: цели, результаты и наборы технологий.

  • Цель. Какова фундаментальная роль специалиста по данным? С какими заинтересованными сторонами они сотрудничают? Какую ценность они представляют для организации?
  • Результаты. Какие типы результатов производят эти роли? Чем отличаются стаффинг и спринты?
  • Технический стек. Какие типы инструментов и языков программирования используются?

1. Цель

Наука о данных

По сути, цель анализа — использовать данные для более глубокого понимания нашего бизнеса — его продуктов, сотрудников, клиентов и всего остального, что взаимодействует в бизнес-экосистеме.

Это понимание определяется бизнес-вопросами, гипотезами и информационными потребностями заинтересованных сторон. К заинтересованным сторонам, заинтересованным в анализе, относятся руководители, маркетинговые команды, менеджеры по продуктам, HR, служба поддержки клиентов или любые другие функции, которые выиграют от понимания своего бизнеса с качественной и количественной точки зрения. По мере того, как специалисты по обработке и анализу данных производят идеи и результаты, которые удовлетворяют вопросы или потребности заинтересованных сторон, они вносят свой вклад в коллективное знание бизнеса.

Специалисты по аналитике в Uber или Lyft могут анализировать такие вопросы, как:

  • Как изменения цены влияют на удержание пользователей? Как это меняется в зависимости от интенсивности конкуренции и ценовой эластичности на данном рынке?
  • Сокращает ли отправка push-уведомлений водителям время до начала поездки (т. е. время между прибытием водителя и фактическим началом поездки)?
  • Как запуск в Хорватии повлияет на MAU (активных пользователей в месяц) и поездки?
  • Как повышение цен влияет на удержание пользователей?

Наука о продуктах

Цель науки о данных о продукте состоит в том, чтобы (а) определить потенциальные улучшения продукта или функции, (б) работать с инженерами для проведения эксперимента, (в) провести эксперимент и (г) представить результаты заинтересованным сторонам. В этом процессе используются некоторые из тех же навыков, что и у ученых-аналитиков, но гораздо больше внимания уделяется A/B-тестированию.

Проблемы, с которыми могут столкнуться специалисты по обработке данных в сфере райдшеринга:

  • Как мы можем ускорить вызов такси после того, как пользователи откроют приложение? Как, в свою очередь, это влияет на вовлеченность и удержание пользователей?
  • Как новый дизайн пользовательского интерфейса влияет на вовлечение и удержание пользователей?

Заинтересованные стороны для специалистов по данным о продуктах отличаются от их коллег из Insights. Они тесно сотрудничают с инженерными командами и представляют свои выводы менеджерам по продукту и владельцам, которые затем дают зеленый/красный свет окончательному выпуску продукта.

Инженерная наука о данных

И наоборот, проектирование DS сосредоточено на создании данных и алгоритмов для характеристик продукта. В то время как бизнес-вопросы и гипотезы определяют стратегическую аналитику, примеры использования определяют науку о продуктах. Мы должны отметить, что инженерная наука о данных в настоящее время дополнительно дифференцируется на:

  • Инженеры машинного обучения: те, кто создает модели, интегрированные в продукты.
  • Инженеры данных: те, кто создает массивные наборы данных для использования в продукте.
  • Инженеры аналитических данных: те, кто создает массивные наборы данных для аналитического использования (например, другими специалистами по данным).

Основное различие между ними и другими специалистами по данным заключается в том, что они в первую очередь сосредоточены на производстве данных как на выходе, а не на синтезе данных.

В рамках этого бизнес-кейса совместного использования поездок есть несколько возможных вариантов использования:

  • Создайте модель, которая рассчитывает оптимальные скачки цен на основе таких факторов, как спрос, время суток и местоположение.
  • Создайте набор данных о манхэттенских расстояниях для каждой поездки, который может быть использован для анализа специалистами по данным.
  • Создайте модель, используемую для персонализации сообщений электронной почты пользователям.

Поскольку эти процессы требуют больших, быстро меняющихся данных, используемая базовая инфраструктура сильно отличается от стратегической науки о данных. Кроме того, эти специалисты по данным в основном работают с техническими заинтересованными сторонами — инженерами, специалистами по данным и техническими руководителями.

2. Результаты

Наука о данных

Результаты анализа, как правило, попадают в следующие категории:

  • Презентации — напр. колоды и отчеты
  • Панели мониторинга
  • Данные и конвейеры данных
  • Ноутбуки — например. Юпитер, Google Collab

Конечные результаты анализа являются автономными — удобоваримая, полезная информация, которая помогает заинтересованным сторонам принимать обоснованные решения о своем бизнесе. В идеале выводы из более ранних рабочих потоков включаются в будущие анализы, что приводит к повторяющемуся, развивающемуся набору идей. Ключом к этим спринтам является сосредоточенность, то есть обеспечение того, чтобы бизнес-вопросы и полученные идеи были ограничены, насколько это возможно, чтобы максимизировать ценность результатов.

Периодичность доставки зависит от сложности данных и анализа и варьируется от пары недель до года. Часто специалисты по данным работают над несколькими анализами одновременно. Опытный специалист по данным может эффективно управлять коммуникациями и ожиданиями со своими заинтересованными сторонами.

Наука о продуктах

Результаты для науки о данных о продукте, как правило, имеют тот же формат, что и наука о данных Insights; однако их результаты менее стратегически ориентированы и более определены по объему. В частности, объем анализа будет заключаться в эксперименте, который проводят специалисты по данным и команда.

В презентациях по науке о продуктах важно убедиться, что (а) результаты эксперимента учитывают любые операционные или технические проблемы, возникшие во время эксперимента, и (б) результаты правильно интерпретируются заинтересованными сторонами. Мы должны обеспечить правильное понимание прибавок и статистических значений по мере того, как они передаются по цепочке управления компании. Мы должны отметить — небольшое изменение в приложении может оказать существенное влияние на бизнес, поэтому проверка своей работы в области науки о продуктах имеет первостепенное значение.

Инженерная наука о данных

И наоборот, результаты и ритм доставки для специалистов по обработке и анализу данных инженера больше напоминают инженера (конечно). Эти результаты могут включать:

  • Наборы данных и конвейеры данных
  • API
  • Автоматизированные процессы (например, конвейеры Kubeflow, Airflow или Serverless)
  • Код, содержащий модели машинного обучения

Эти результаты часто становятся частью продукта и, следовательно, должны создаваться инженерами, владеющими функцией или продуктом. Во многих сценариях специалист по данным будет внедрять или сотрудничать с командой инженеров для поддержки реализации статистических процессов.

3. Технический стек

Идеи и наука о данных о продуктах

Эти специалисты по данным используют в основном один и тот же набор инструментов, который обычно включает:

  • Блокнот — напр. Юпитер, Коллаб
  • Питон или R
  • SQL и реляционная база данных
  • Программное обеспечение для визуализации данных — например. Табло, Перископ, Студия данных
  • Гитхаб

Однако, в зависимости от требований анализа, эти специалисты по данным могут использовать широкий набор инструментов, таких как Excel, службы облачной платформы (вычисления, хранилище и т. д.) или программное обеспечение для машинного обучения (например, TensorFlow).

Инженерная наука о данных

Инженерная наука о данных имеет более широкий набор инструментов и языков для охвата. Это также требует знания пограничной области, поскольку оно включает в себя аспекты инженерии. Это основные области инженерных данных и связанные с ними инструменты: *

  • Языки запросов больших данных: SQL, Spark, Scala, Hive.
  • Базы данных: реляционные, NoSQL
  • Машинное обучение: Python, Tensorflow
  • DevOps: Docker, Kubernetes, Git Actions, Jenkins
  • Облачная инфраструктура: вычисления, хранение, управление доступом

* Обратите внимание, что в зависимости от компании, используемых систем и вариантов использования эти инструменты могут сильно различаться. (Также обратите внимание, что я не специалист по инженерным данным, поэтому я могу говорить только об инструментах, которые знаю).

Тремя основными платформами облачных вычислений являются Google Cloud Platform, Amazon Web Services и Microsoft Azure. Хотя это разные платформы, большинство сервисов очень похожи и даже взаимозаменяемы (с некоторым хорошо спланированным кодом).

В заключении

Теперь мы обсудили некоторые ключевые различия между формами науки о данных. По мере развития практики науки о данных мы должны учитывать, как эти разные роли играют в нашем бизнесе. Компании начали сомневаться в ценности, которую дает наука о данных, но многие недостатки связаны с тем, что не используют нужных людей в нужном месте. Я надеюсь, что имея четкое представление об этих ролях, вы сможете лучше понять, как каждая из этих ролей обеспечивает ценность в вашей организации.