Мнение

Почему я стал Data Scientist, а не Data Engineer

Чтобы помочь вам определиться с карьерой

Оглавление

  1. Введение
  2. Сотрудничество с заинтересованными сторонами продукта
  3. Предпочтение Python вместо SQL
  4. Ориентация на эксперименты
  5. Краткое содержание
  6. Рекомендации

Введение

Короче говоря, я, конечно, предпочитаю быть специалистом по данным, а не инженером по данным, но почему? Возможно, эти причины, которыми я поделюсь из своего личного опыта, могут быть связаны с тем, что вы думаете, или, по крайней мере, помочь вам определить, хотите ли вы следовать тому или иному пути или пересмотреть возможность перехода на другую роль. Хотя у ролей одинаковое первое слово, между этими двумя позициями есть масса различий.

Легко думать о разработке данных как о прошлом, а о науке о данных как о будущем. Мы углубимся в это утверждение, но, по сути, инженеры данных обеспечивают основу и структуру, на которых строится наука о данных, и извлекают из нее выгоды. Важно отметить, что некоторые требования к работе частично совпадают, а в некоторых компаниях эти две роли даже совмещены. Тем не менее, я думаю, что лучше всего рассматривать их как отдельные роли, поскольку их цели сильно различаются. С учетом сказанного давайте рассмотрим причины, по которым наука о данных предпочтительнее инженерии данных.

Сотрудничество с заинтересованными сторонами продукта

В некотором смысле специалист по обработке и анализу данных — это что-то вроде менеджера по продукту, что может быть плюсом или минусом в вашем решении или рассуждениях. Мне нравится аспект, связанный с формулировкой проблемы, определением, где находятся данные и как их можно получить (обычно с помощью инженера данных), проектированием функций, сравнением моделей, окончательным развертыванием модели и анализом. воздействия на пользователей продукта.

Вот некоторые опыты специалистов по данным в отношении совместной работы с заинтересованными сторонами продукта, которые могут вам понравиться или не понравиться:

  • Выявление подводных камней продукта, с которыми сталкиваются пользователи
  • Разрабатывайте решения с помощью алгоритмов
  • Наблюдайте за изменениями вашего продукта в центре приложения
  • Анализируйте и гордитесь своим влиянием на бизнес и его пользователей
  • Больше работать с продуктовой командой
  • Работайте над продуктовой стратегией больше

Конечно, между этими ролями всегда будут некоторые совпадения, даже с тем опытом, который обсуждался выше. Однако инженеры данных больше сосредотачиваются на самих данных, тогда как специалисты по данным, как правило, больше сосредотачиваются на проектах продукта.

Пользователи для инженеров по обработке данных, как правило, также являются сотрудниками на рабочем месте, поскольку специалист по данным может быть пользователем проекта по разработке продукта для обработки данных. Обратное обычно верно для специалистов по данным, где продукты, как правило, больше ориентированы на внешнего пользователя, клиента, но все еще могут быть внутренние инструменты, над которыми работают специалисты по данным.

Предпочтение Python вместо SQL

Эти языки программирования довольно разные, и большинство компаний обычно ожидают, что вы будете владеть обоими, независимо от того, являетесь ли вы специалистом по данным или инженером данных. Но для инженеров данных основное внимание обычно уделяется SQL, а для специалистов по данным — Python (или R). При этом, если вы не предпочитаете SQL или запросы, но по-прежнему любите сами данные и работу с ними, то вы, скорее всего, находитесь в лагере науки о данных.

Вот несколько примеров того, как специалисты по данным будут использовать Python и когда они будут использовать SQL:

  • Python используется в популярных библиотеках
  • Библиотеки Python, которые охватывают большую часть науки о данных — алгоритмы машинного обучения.
  • Python также можно использовать для развертывания.
  • SQL обычно используется для запроса набора данных заранее, или SQL используется для запроса результатов модели, однако некоторые из этих запросов могут быть выполнены в модуле библиотеки запросов Python pandas.

Опять же, вы, вероятно, будете использовать оба в любой карьере, но разница в том, что вы хотели бы использовать в своей повседневной работе. Иногда вы можете прожить две недели без использования SQL, если вы сосредоточены только на самой модели, а иногда вы можете использовать SQL ежечасно.

Ориентация на эксперименты

Вы, конечно, можете проводить эксперименты в качестве инженера данных, касающиеся потребления времени, памяти, стоимости и т. д., но эксперименты, которые я обсуждаю, — это традиционная мысль.

Вот некоторые из экспериментов, которые вы можете провести как специалист по данным:

  • Традиционное тестирование AB со значимостью
  • Сравнение функции / важности
  • Сравнение моделей
  • Сравнение показателей точности или ошибок
  • Сравнение бизнес-показателей (КПЭ — ключевые показатели эффективности)
  • Графически/визуально сравните все вышеперечисленное
  • Сравнение хорошо подходит для обсуждения с заинтересованными сторонами и пользователями, не занимающимися данными.

Эти эксперименты лежат в основе работы по науке о данных, эксперименты и сравнения можно применять практически к любой работе, но для алгоритмов и статики эксперименты являются ключевыми.

Краткое содержание

Если вы предпочитаете быть больше на стороне продукта, чем на строго инженерной стороне, например, Python больше, чем SQL, и любите тестировать экспериментальные ситуации, тогда наука о данных может быть для вас лучше, чем разработка данных.

Подводя итог, вот некоторые из причин, по которым я предпочитаю науку о данных инженерии данных, и, возможно, они совпадают с вашими мыслями или могут быть новыми для вас:

* Product Stakeholder Collaboration
* Preference for Python over SQL
* Experimentation Oriented

Надеюсь, моя статья была вам интересна и полезна. Пожалуйста, не стесняйтесь комментировать ниже, если вы согласны или не согласны с этими причинами выбора науки о данных. Почему или почему нет? Как вы думаете, какие другие важные причины или ситуации мы могли бы обсудить? Их, безусловно, можно уточнить еще больше, но я надеюсь, что смог пролить свет на некоторые более уникальные и конкретные причины, по которым я выбрал науку о данных, а не инженерию данных. Спасибо за чтение!

Я не связан ни с одной из этих компаний.

Пожалуйста, не стесняйтесь проверить мой профиль,Matt Przybyla, и другие статьи, а также подписаться на получение уведомлений по электронной почте для моих блогов, перейдя по ссылке ниже, или нажав значок подписки в верхней части экрана рядом со значком подписки, и свяжитесь со мной в LinkedIn, если у вас есть какие-либо вопросы или комментарии.

Ссылка для подписки: https://datascience2.medium.com/subscribe

Рекомендации

[1] Фото Nick Fewings на Unsplash, (2018)

[2] Фото Jason Goodman на Unsplash, (2019)

[3] Фото David Clode на Unsplash, (2018)

[4] Фото Девушка в красной шапке на Unsplash, (2021)