Прежде чем стать специалистом по данным, сначала подумайте, каким специалистом по данным вы хотите быть.

Причина, по которой это имеет решающее значение, заключается в том, что наука о данных не является единой четко определенной областью, и в ближайшем будущем компании будут нанимать не обычных, мастеров на все руки «специалистов по данным», а скорее людей с очень специализированными навыками. наборы.

Фундаментальная причина этого явления заключается в том, что компании, которые плохо знакомы с миром науки о данных, не обращают внимания на тот факт, что в сфере науки о данных существуют разные роли и какие роли подходят для их конкретного рабочего процесса. Например, некоторые компании применяют простые модели к большим наборам данных, некоторые применяют сложные модели к небольшим, некоторым нужно обучать свои модели на лету, а некоторые вообще не используют (обычные) модели, но все это будет меняются, когда компании осознают, что не получают оптимальной отдачи от своих инвестиций.

Итак, какие виды профессий можно исследовать в науке о данных?

Вот список из четырех взаимосвязанных классов, которые часто объединяют под заголовком «наука о данных»:

1. Инженер данных

Описание работы. Вы будете собирать данные и управлять потоками данных для компаний, которые работают с большими объемами данных. Это означает, что ваши данные эффективно собираются и извлекаются из источника, когда это необходимо, очищаются и предварительно обрабатываются. Вы будете извлекать данные из OLTP (онлайн-обработка транзакций) и хранить их в «хранилище данных» для использования аналитиками и учеными данных.

Почему это важно. Если вы когда-либо работали только с относительно небольшими (‹5 ГБ) наборами данных, хранящимися в файлах .csv или .txt, вам может быть трудно понять, почему существуют люди, полностью время работы это построить и поддерживать конвейеры данных. Вот несколько причин: 1) 50-гигабайтный набор данных не поместится в оперативной памяти вашего компьютера, поэтому вам, как правило, нужны другие способы передать его в вашу модель, и 2) для обработки такого большого количества данных может потребоваться смехотворное количество времени. , и часто приходится хранить избыточно. Управление этим хранилищем требует специальных технических ноу-хау.

Требования.Технологии, с которыми вы будете работать, включают Apache Spark, Hadoop и/или Hive, а также Kafka. Скорее всего, вам понадобится прочная основа в SQL.

2. Аналитик данных

Описание работы.Ваша работа будет заключаться в преобразовании данных в полезные бизнес-идеи. Вы часто будете посредником между техническими командами и командами по бизнес-стратегии, продажам или маркетингу. Визуализация данных станет важной частью вашей повседневной работы.

Почему это важно.Техническим специалистам часто трудно понять, почему аналитики данных так важны, но они действительно важны. Кто-то должен преобразовать обученную и протестированную модель и огромное количество пользовательских данных в удобоваримый формат, чтобы на их основе можно было разрабатывать бизнес-стратегии. Аналитики данных помогают убедиться, что данные научные группы не тратят свое время на решение проблем, не представляющих ценности для бизнеса.

Для этой роли вам потребуются хорошие коммуникативные навыки.

3. Специалист по данным

Описание работы. Ваша работа будет заключаться в очистке и изучении наборов данных, а также в составлении прогнозов, которые принесут пользу бизнесу. Ваша повседневная деятельность будет включать в себя обучение и оптимизацию моделей, а также часто их развертывание в рабочей среде.

Почему это важно. Когда у вас есть куча данных, которые слишком велики для человека, чтобы их анализировать, и слишком ценны, чтобы их можно было игнорировать, вам нужен какой-то способ извлечь из них удобоваримую информацию. Это основная работа специалиста по данным: преобразовывать наборы данных в понятные выводы.

Требования.Технологии, с которыми вы будете работать, включают Python, scikit-learn, Pandas. Некоторые позиции в науке о данных носят чисто технический характер, но большинство из них потребует от вас некоторого делового чутья, чтобы в конечном итоге вы не решили проблемы, которых нет ни у кого.

4. Инженер по машинному обучению

Описание работы.Ваша работа будет заключаться в создании, оптимизации и развертывании моделей машинного обучения в рабочей среде. Как правило, вы будете рассматривать модели машинного обучения как API или компоненты, которые вы будете подключать к полнофункциональному приложению или оборудованию какого-либо типа, но вас также могут попросить разработать модели самостоятельно.

Требования. Вы должны быть компетентны как в технологиях машинного обучения, так и в технологиях веб-разработки/разработки программного обеспечения. И наоборот, эту роль может выполнять специалист по данным, обладающий знаниями в области программного обеспечения и веб-разработки.

Четыре должностных инструкции, которые я здесь изложил, определенно не являются единственными во всех случаях. Например, на ранней стадии стартапа специалисту по данным, возможно, придется быть инженером данных и/или аналитиком данных. Но большинство вакансий более точно попадает в одну из этих категорий, чем в другие, и чем крупнее компания, тем чаще применяются эти категории.

Вместо этого подумайте о той ценности, которую вы хотите помочь компаниям создать, и научитесь создавать эту ценность. Это, более чем что-либо другое, лучший способ войти в дверь.