Если вы хотите начать работу в области науки о данных (… или технологий в целом🤷‍♂️👨🏾‍💻), очень легко запутаться в выборе того, какую роль выбрать. Существует множество областей, таких как аналитики данных, инженеры-аналитики, специалисты по данным, инженеры данных, инженеры по машинному обучению, инженеры бизнес-аналитики, архитекторы данных, аналитики по маркетингу… Вы уже поняли, верно?

Происходит взрывной рост ролей, который подавляет тех, кто только начинает работать в этой области. Я написал этот пост, чтобы поделиться с вами некоторыми уроками, которые я усвоил на своем пути к самообучению. Я думаю, что это будет полезно для тех, кто начинает заниматься наукой о данных.

"Чтобы начать, не обязательно быть хорошим... нужно просто начать быть хорошим!"

~ Джо Сабах

Чтобы избежать путаницы, мы сформулируем структуру из трех столпов в области данных, которые распространены в отрасли:

Аналитика данных, Наука о данных и Инженерия данных

Давайте погрузимся в каждый из них, 🏊‍♂️😁;

1. Аналитика данных

Основная цель тех, кто работает в этой области, — помогать принимать решения, основанные на определенных данных. Чтобы помочь нам разбить различные типы рабочих функций в роли аналитика данных, давайте подумаем об аналитике данных как о процессе использования данных для ответа на вопросы.

И в этом контексте мы можем разделить роль аналитика данных на четыре разных типа вопросов, на которые вы пытаетесь ответить. Разделение роли аналитика данных на эти четыретипа вопросов позволит нам понять различия между должностными обязанностями в мире данных.

1 .Что случилось? 🤷‍♂️

Итак, давайте использовать это как каркас в будущем.

Первый вопрос, что случилось? Я буду использовать два примера

Например, менеджер по продажам в автосалоне Audi может спросить: «Каковы были наши продажи в прошлом месяце?» или менеджер по продукту в Twitter может спросить: «Сколько новых пользователей вчера зарегистрировалось в мобильном приложении?»

Все эти вопросы пытаются ответить на вопрос «Что случилось?».

2. Почему это произошло? 🤔

Тот же менеджер по продажам Audi спросит: «Какие модели автомобилей были проданы больше всего в прошлом месяце?»

Кроме того, менеджер по продукту в Twitter хочет знать, на какой платформе зарегистрированы пользователи. Это на iOS на телефонах Apple или в основном на телефонах Android?

Ясно, что вопросы такого типа пытаются выявить первопричину того, почему что-то произошло, и первопричина может очень сильно повлиять на принятие следующего решения.

Затем на третий вопрос, на который вы пытаетесь ответить как аналитик данных;

3. Что может произойти?

Таким образом, для менеджера по продажам Audi это может быть ответом на вопрос, каковы будут наши продажи в следующем месяце?

Менеджер по продукту в Twitter может захотеть узнать, сколько пользователей будет у нас к концу года? Простой ответ = Много 😅

Эти типы вопросов пытаются предсказать, что произойдет в какой-то момент в будущем. Прогнозирование продаж — распространенный пример, который также приходит на ум.

Последний вопрос, на который часто труднее всего ответить:

4. Какие действия мне следует предпринять?

Вы можете думать об этом как о попытке выяснить, как достичь определенной цели (в нашем случае: рост продаж, пользовательская база…)

Возвращаясь к менеджеру по продажам Audi, он может спросить, как мне увеличить продажи на 20% в следующем году?

Менеджер по продукту в Twitter может спросить, как мне достичь двух миллиардов пользователей к концу года?

Не самый простой вопрос, когда вы пытаетесь заставить треть планеты использовать ваш продукт. 🤔😅

Таким образом, мы можем рассматривать аналитику данных как процесс использования данных для принятия решений. Различные типы рабочих функций в области анализа данных можно разделить на эти четыре типа вопросов.

Почему?

Полезно посмотреть на это таким образом, как только мы получим лучшее представление об общей картине. Итак, это охватывает часть аналитики данных профессии данных.

2. Наука о данных

Термин наука о данных стал модным в последние несколько лет из-за стремительного роста спроса на него.

Хотя область науки о данных обширна и ее может быть трудно определить, мы можем разбить ее на два разных типа функциональных ролей. Один основан на решениях, а другой — на функциях.

Вот что мы подразумеваем под этим.

Часть науки о данных на самом деле является расширением аналитики данных, помогая усложнить последние два вопроса в структуре из четырех вопросов, иногда называемой наукой, основанной на принятии решений.

Эта область науки о данных фокусируется на анализе данных для решения сложных проблем. Для их решения могут потребоваться передовые методы моделирования, а на их решение уйдут недели или месяцы.

Например, помочь менеджеру по продукту в Twitter понять, как достичь двух миллиардов пользователей к концу года — сложная задача.

Нам понадобятся различные драйверы роста пользовательской базы, сегментация по странам, языкам и т. д., а затем выдвинут гипотезу, которую необходимо смоделировать, чтобы предсказать, что произойдет, если мы внесем конкретное изменение. Такие проекты вписываются в решение.

Другой функциональный тип роли для специалиста по данным, который мы назвали основанным на функциях, — это создание продуктов данных. Итак, что мы подразумеваем под этим?

Термин продукт данных относится к продуктам или функциям, которые основаны на данных или изменяются в соответствии с ними.

Давайте погрузимся прямо в пример, который должен помочь понять смысл этого термина. Одним из наиболее известных продуктов данных, с которым многие из нас взаимодействовали, является рекомендация продукта Amazon «клиенты, которые купили этот товар, также купили», а затем он содержит список товаров, которые другие клиенты Amazon приобрели вместе с исходным товаром.

То, что Amazon делает здесь за кулисами, — это просмотр истории прошлых транзакций, а затем поиск наиболее распространенных товаров, которые были куплены вместе с товаром, который вы только что выбрали. Так как Amazon использует свои данные для предоставления своим клиентам возможности продукта, это пример того, что мы называем продуктом данных.

Это продукт, который создается и изменяется на основе данных, которые Amazon собирает с течением времени.

Теперь предоставлять такие рекомендации своим клиентам очень сложно и технически сложно, но для Amazon было невероятно выгодно реализовать эту функцию рекомендаций на своем сайте.

Для специалистов по данным, которые работают над продуктами данных, результат их работы в конечном итоге достигает внешних клиентов, что означает взаимодействие с пользователями или клиентами компании.

В отличие от тех, кто работает в ролях типа анализа данных, их выходные данные предназначены для внутреннего использования, чтобы помочь в принятии бизнес-решений.

Это действительно хорошая основа для разделения двух типов рабочих функций.💡😁

Работа по анализу данных используется внутри компании для принятия бизнес-решений, которые могут выполняться аналитиком данных или специалистом по данным, а работа по продукту данных используется внешними пользователями или клиентами компании и выполняется специалистом по данным. .

Итак, мы рассмотрели аналитику данных и науку о данных.🆗👌🏾

Последним столпом профессий данных в этой структуре является….

3. Инженерия данных

Первые два «столпа» профессии данных касались различных способов анализа данных и манипулирования ими для получения результатов, которые либо отвечали бы на вопрос, либо взаимодействовали с пользователями или клиентами компании.

Чтобы все это стало возможным, нам нужен способ хранить и сохранять данные, преобразовывать их, а затем перемещать из одного места в другое, в зависимости от варианта использования.

Это инженерия данных, иногда называемая инфраструктурой данных или архитектурой данных.

Инженерия данных занимается сбором, хранением, обработкой и передачей данных. Это относится к проектированию и кодированию, необходимым для работы с данными.

В примере, который мы привели ранее, функция рекомендации продуктов Amazon, чтобы веб-сайт мог предлагать предложения почти в режиме реального времени, должна иметь некоторую инфраструктуру, чтобы данные о прошлых транзакциях могли перемещаться из того места, где они были первоначально сохранены. на сайт, где он обрабатывается. Именно здесь применяются алгоритмы, чтобы затем рекомендовать товары покупателю, который делает покупки на Amazon и готов к оплате. Тот факт, что Amazon может предлагать эти рекомендации почти в реальном времени, как только вы нажимаете на продукт, чтобы купить, означает, что у них есть действительно хорошее решение для обработки данных.

Поэтому я надеюсь, что это дало вам хотя бы концептуальное представление о том, что такое инженерия данных и чем занимается инженер данных.

По сути, вы можете думать об инженерии данных как о создании инфраструктуры, которую иногда называют сантехникой, необходимой для того, чтобы команды по анализу данных и исследованию данных могли выполнять свою работу.

Хорошо, теперь, когда мы охватили все три области профессии данных в нашей структуре, и вы понимаете различные функциональные роли в мире данных, это будет вам большим подспорьем.

Давайте кратко поговорим о различных наборах навыков, которые необходимы в разных профессиях, связанных с данными.

Инженерия данных

Основные наборы навыков, которые вам нужны, чтобы стать инженером данных, — это программирование и знание систем баз данных. Как правило, вам нужно быть знакомым с более чем одним или двумя языками программирования, поскольку разные компании и разные системы внутри компаний могут быть написаны на разных языках.

Вам необходимо иметь глубокие знания о системах баз данных и знать, как создавать различные типы систем.

Некоторые общие роли в этой области включают хранение данных, разработку и обслуживание распределенных систем и создание конвейеров данных для специалистов по обработке и анализу данных.

Исследователи данных. Что касается навыков, хорошие специалисты по данным должны быть сильными программистами (поскольку Python и R считаются наиболее популярными языками).

Они также должны хорошо разбираться в статистике, а также уметь легко манипулировать данными, которые могут быть найдены в разных базах данных и в разных форматах, и уметь объединять их для анализа.

Обычная роль специалистов по данным включает в себя инженеров по машинному обучению, что включает в себя моделирование и создание продуктов данных, таких как механизмы рекомендаций.

Аналитики данных —

Что касается навыков работы в области аналитики, вам необходимо владеть определенным языком программирования (MySQL).

Вам также необходимо развить аналитический склад ума, что означает, что вы хорошо умеете концептуализировать, формулировать и решать сложные проблемы.

И, наконец, обладать хорошими коммуникативными навыками, как письменными, так и устными, а также средствами визуализации. Хорошие аналитики данных могут просмотреть все цифры и рассказать историю о том, что действительно важно.

В этой области распространены различные типы ролей: аналитики продукта, аналитики бизнес-аналитики и аналитики маркетинга.

Между аналитиком данных, учеными по данным и инженерами по данным во многом совпадают навыки и роли. У каждого из них есть своя собственная дорожная карта обучения и карьерный путь.

Сосредоточьтесь на способностях, а не на ролях
Если сейчас есть что-то сложное для определения, так это роли в науке о данных. Каждая компания описывает роли таким образом, который соответствует их требованиям и пригодности.

Вы всегда должны отдавать приоритет возможности изучения новых способностей. Опять же, не переставайте учиться чему-то, потому что это не входит в ваши обязанности как аналитика данных, специалиста по данным или инженера данных.

Продолжайте учиться, продолжайте совершенствоваться
Как вы узнаете новую концепцию, если никогда о ней не слышали? Один из способов преодолеть это — поставить цель читать по статье каждый день.

Продолжайте учиться, продолжайте совершенствоваться. Ежедневно читайте, выделяйте время для ежедневной практики того, что вы уже выучили, и будьте терпеливы в этом процессе.

Сегодня вы можете быть аналитиком данных. Завтра вы можете стать инженером данных. Кто знает. Вы здесь, чтобы решать проблемы.👨‍🔬👩‍🔬

Спасибо за ваше время! 😁