Область науки о данных по-прежнему очень сбивает с толку, поскольку задачи, назначенные различным ролям в этой области, не согласованы и не сформулированы критически.
Из-за этого становится немного запутанно, на чем сосредоточиться, пытаясь следовать путь в мире науки о данных.

Не все, кто занимается наукой о данных, являются специалистами по данным!

Я написал пост и снял видео, в котором подробно рассказывается о вышеупомянутом заявлении. Тем не менее, я резюмирую несколько утверждений ниже:

Data Scientist - это не аналитик данных!
Data Scientist - это не Data Engineer!
Data Scientist - это не бизнес-аналитик!
Data Scientist не является администратором базы данных !
Data Scientist - это не инженер по визуализации данных!
Data Scientist - это не инженер по машинному обучению!
Data Scientist - это не специалист по бизнес-аналитике!

Это не означает, что специалист по анализу данных не сможет выполнять задачи, которые затрагивают все эти области. Это просто означает, что обязанности Data Scientist не ограничиваются этим, а также что эти дисциплины не могут определять Data Scientist.

Следует отметить, что обязанности специалиста по данным различаются в зависимости от компании или организации. Специалист по данным в стартапе может больше выполнять задачи Data Engineering и Data Analyst, в то время как в более крупной организации задачи могут быть в некоторой степени определены.
Кроме того, из проведенных опросов большинство специалистов по данным сообщает, что они тратить 80% времени на выполнение задач Data Engineering, таких как очистка данных, запуск конвейеров ETL и тому подобное, в то время как оставшиеся 20% используются для конкретных задач Data Scientists. В этом нет ничего странного, поскольку у большинства компаний нет достаточного количества технических специалистов, надлежащей структуры хранилища данных, а также данные поступают в различных форматах, которые нельзя сразу использовать для разумного понимания, пока они не будут должным образом очищены до подходящего формата.

Ваши обязанности как специалиста по данным могут различаться в зависимости от размера и типа вашей организации!

В этом посте я сгруппирую обязанности Data Scientist по пяти пунктам:

  1. Задайте вопрос
    У специалиста по данным должен быть вопрос, на который он пытается ответить. Этот вопрос может быть бизнес-проблемой, на которую нет реального ответа. Это также может исходить от Data Scientist на основе бизнес-отчетов и тенденций. Опыт специалистов по данным также помогает задавать правильные вопросы, связанные с бизнесом.
    Бизнес-аналитики очень важны на этом этапе, поскольку они работают рука об руку с специалистом по данным.
  2. Получение данных
    Специалист по данным практически ничего не может сделать без доступа к нужным данным. Когда возникает вопрос, следующий шаг - найти ответ на него; и в первую очередь ответы будут получены из имеющихся данных. Эта задача действительно важна, так как она может испортить все остальное, и нужно приложить столько усилий, чтобы обеспечить получение правильных данных.
    Специалист по данным сотрудничает с инженером по данным, чтобы обеспечить успех.
  3. Изучите данные
    Анализ данных - это следующий шаг, когда станут доступны нужные данные. В этой части критически исследуются данные, чтобы получить возможную информацию, которая поможет в решении бизнес-проблемы. Во время исследования особое внимание уделяется особенностям, которые напрямую влияют на вопрос, на который нужно ответить. На этом этапе уже определены возможные закономерности и тенденции, которые используются на следующем этапе.
    Эксперты по бизнес-аналитике и аналитики данных играют очень важную роль на этом этапе.
  4. Смоделируйте данные
    Здесь данные, полученные на предыдущем шаге, используются при построении модели данных. Строящаяся модель основана на вопросе, на который предполагается ответить. Это может быть контролируемый или неконтролируемый подход, который используется при построении модели. Построенная модель также используется для прогнозирования будущих событий на основе имеющихся данных.
    Инженеры по машинному обучению помогают в построении модели и ее развертывании в производственной среде.
  5. Сообщите о результатах
    На этом этапе выводы, тенденции и закономерности сообщаются и представляются заинтересованным сторонам. Представление данных в основном осуществляется через рассказывание историй и использование графиков и диаграмм. Эффективная передача данных является ключевым моментом, так как любая информация, полученная на основе данных, должна быть должным образом передана таким образом, чтобы ее было легко понять, а эффективность для бизнеса также подробно описывалась.
    Роль инженеров по визуализации данных на этом этапе неизбежна, поскольку они обеспечивают четкое представление данных без визуальных эффектов, которые мешают работе мозга.

Data Scientist в основном работает со всеми другими дисциплинами в области Data Science, и также хорошо иметь надлежащие знания того, что ожидается на каждом из вышеупомянутых шагов.

Спасибо, что прочитали мой пост. Хотите узнать больше о Data Science? Вы можете подписаться на меня на Medium или посмотреть на меня на YouTube.