С течением времени данные становятся все более и более важными, некоторые люди даже называют их новым бензином. Ожидается, что к 2025 году мы будем производить 463 эксабайта в день. Чтобы понять смысл всего, что у нас есть аналитики, специалисты по данным, машинное обучение и ИА, но эти люди и технологии настолько хороши, насколько хороши данные, которые они получают.

Чтобы необработанные данные покидали источники и поступали чистыми и в хорошем состоянии для анализа, у нас есть инженеры по обработке данных. Чтобы быть более точным, инженеры данных создают системы (иногда называемые конвейерами), которые перемещают, преобразовывают, очищают и объединяют данные, чтобы облегчить компаниям получение информации из них.

Общие задачи для инженеров данных

Как и в случае с большинством профессий в сфере технологий, размер компании, в которой вы работаете, сильно влияет на то, чем вы на самом деле занимаетесь в течение дня. Небольшим компаниям требуется более универсальный профессионал, роли менее четко определены, и вы должны делать все понемногу. В крупных компаниях будет больше людей, которые будут выполнять работу, и ваша роль будет более целенаправленной.

Иногда этот сценарий не совсем такой, я работал в некоторых крупных компаниях, где команда должна была вести себя как стартап внутри предприятия. У нас была поддержка других команд, но почти все приходилось делать самим.

В любом случае, некоторые вещи являются общими для всех дата-инженеров:

  • Найдите наборы данных, которые соответствуют потребностям бизнеса
  • Разработка алгоритмов для преобразования, очистки и стандартизации данных
  • Создавайте, тестируйте и обслуживайте конвейер базы данных (ETL и ELT)
  • Сотрудничайте с бизнес-командами, чтобы понять цели компании
  • Проверить данные
  • Обеспечьте соблюдение политик управления и безопасности для данных

В небольших компаниях вы можете нести ответственность за поддержку BI и других инструментов визуализации данных. Может быть, даже взять на себя роль аналитика данных и предоставить анализ бизнесу.

Почему эта карьера для вас

Если вы хотите работать с данными, есть более популярные роли, такие как специалист по данным и аналитик данных, но ответственность за предоставление данных также очень важна. На самом деле, разработка данных — одна из самых высокооплачиваемых профессий в сфере технологий прямо сейчас.

Я считаю, что это более легкая работа, связанная с данными, если вы пришли из разработки программного обеспечения, особенно если вы работаете с Python или Scala. На самом деле, именно так я попал в эту область, большую часть своей карьеры я провел в качестве разработчика Python, и этот шаг произошел естественным образом.

Как стать инженером данных

Как и в любой области технологий, степень может быть очень кстати, но это не обязательное условие. Как случилось со мной, опыт также может помочь выйти на поле.

Есть некоторые навыки, которые важны на этом карьерном пути, и они будут упоминаться в должностных инструкциях и на собеседованиях.

  • Кодирование. Кодирование — это часть повседневной деятельности инженера данных. Вы будете писать сценарии SQL, конвейеры ETL, конвейеры ELT, блокноты и многое другое. Основные языки, которые вы увидите, это Python, R, Scala, SQL и Java.
  • Базы данных. Кто бы мог подумать, что работа, связанная с данными, требует знания баз данных? Чем больше вы знаете, тем лучше, но если бы я начинал заново, я бы сосредоточился на одной базе данных SQL и одной базе данных NoSQL. После того, как вы изучите свою первую базу данных SQL, другие будут очень похожи. NoSQL, с другой стороны, может сильно различаться, знание MongoDB не поможет с Cassandra, но, по крайней мере, вы знаете одну 🤷‍♂️.
  • Конвейеры. Здесь вы будете проводить большую часть своего времени. Я написал пост на тему ETL vs ELT, который поможет вам лучше понять это.
  • Большие данные. Особенно, если вы планируете работать в крупных компаниях, очень важно хорошее понимание ключевых концепций и методов работы с большими данными. Используемые технологии сильно различаются, но Hadoop и его сокращение карты являются основой для большинства из них.
  • Облачные вычисления. Прошли те времена, когда облачные технологии были не везде. Выберите одного облачного провайдера, AWS — лидер рынка, узнайте, какие инструменты он предлагает для управления данными. Может быть, даже пройти сертификацию, если вы уверены, с каким облаком вы хотите работать, у меня есть один в AWS и я работаю с Azure.
  • Безопасность данных. Вам не обязательно быть экспертом в области безопасности, но хорошее понимание важно. Вы будете управлять доступом к данным компании, включая данные пользователей и другие коммерческие тайны.

Сертификаты того стоят?

Это широко обсуждаемая тема, сертификаты могут помочь подтвердить ваши навыки, если у вас мало опыта, но они могут не иметь значения. Варианты включают младшего инженера по большим данным, сертифицированного профессионального инженера данных Cloudera, сертифицированного инженера данных IBM или сертифицированного профессионального инженера данных Google Cloud.

Другие соображения

При работе в крупных компаниях очень полезно иметь знания в области T. Понимание всего понемногу и многое в одном, это не только сделает вас более универсальным профессионалом, но и поможет вам приносить пользу другим командам. Большая часть работы, которую выполняет дата-инженер, предназначена для внутренних клиентов, поэтому приятно понимать, что делают другие.

В рамках расширенной области знаний у вас есть машинное обучение. Это хороший инструмент для вашего набора инструментов, я верю, что машинное обучение станет частью каждой ИТ-работы в будущем, и это никогда не помешает знать.

Еще одним соображением является наличие хорошего портфолио на Github, это настоятельно рекомендуется в большинстве мест. У меня его нет, но у меня есть очень хороший профиль LinkedIn. К счастью, моего опыта было достаточно, чтобы доказать свои способности и получить интервью. Github может заменить ваши сертификаты, если у вас нет опыта в этой области, у меня просто нет большого опыта в этом.

Заключение

Приходите работать на этом растущем поле, если вы думаете, что это будет хорошо. Инженер данных находится на перекрестке между DevOps, разработкой программного обеспечения и аналитикой данных — очень хорошая должность, если вам нравятся разные вещи.

Как и любая другая позиция данных, вы будете тесно сотрудничать с бизнесом. Хорошее понимание бизнеса и рынка придет к вам, когда вы изучите потребности бизнеса и поймете данные.

Мне нравится быть дата-инженером, потому что проблемы сильно меняются от одного спринта к другому. Одну неделю вы боретесь с Terraform и пытаетесь предоставить S3, на следующей нужно построить конвейер, и вы будете напрягать мышцы Python. Мне также нравится работать с людьми, меня привлекает понимание реальных потребностей заинтересованных сторон.

Надеюсь, вам понравилось немного больше узнать о роли инженера данных. Пожалуйста, подпишитесь на меня на Medium и поделитесь этой статьей с друзьями :)

Присоединяйтесь к FAUN: Сайт💻|Подкаст🎙️|Twitter🐦|Facebook👥 |Instagram📷|Группа Facebook🗣️|Группа Linkedin💬| Slack 📱|Cloud Native Новости📰|Дополнительно.

Если этот пост был полезен, пожалуйста, несколько раз нажмите кнопку аплодисментов 👏 ниже, чтобы выразить свою поддержку автору 👇