Инженерия данных по специализации GCP: подробное руководство для профессионалов в области данных

ПОЛНОЕ РУКОВОДСТВО ДЛЯ ПРОФЕССИОНАЛОВ ДАННЫХ

Инженерия данных по специализации GCP

От специализации Coursera до сертификационного экзамена

Если вы профессионал в области данных и хотите повысить квалификацию, недостатка в вариантах обучения нет, но если вы ищете способы переноса данных и аналитики в облако, вы можете выбирать между ограниченным числом поставщиков общедоступного облака.

Это руководство посвящено Google Cloud, а точнее специализации Разработка данных в Google Cloud (формально известной как Data Engineering on Google Cloud Professional Certificate), и предоставляет вам актуальную информацию и практические советы.

Он основан на моем собственном опыте завершения специализации, а также на материалах, полученных от других инженеров по обработке данных, также работающих в этой области.

Если вас интересует Сертификационный экзамен Google Cloud Professional Data Engineer Certification Exam, специализация, скорее всего, станет вашей отправной точкой. Также будет обсуждаться сертификационный экзамен.

В руководстве рассматривается следующее:

Обзор соответствующих вариантов обучения
О чем идет речь
Почему стоит выбрать специализацию Data Engineering
Обзор: что хорошо / чего не хватает / что выделяется
Практические советы по специализации
Дальнейшие действия после завершения специализации
Сертификационный экзамен

Изучив эту информацию, вы сможете лучше решить, подходит ли вам курс.

О специализации

Во-первых, давайте убедимся, что вы попали в нужное место.

Специализация Инжиниринг данных в Google Cloud - одна из нескольких специализаций по запросу, которые относятся к треку данных Google Cloud.

У него есть брат-близнец, специализация Инжиниринг данных, большие данные и машинное обучение в Google Cloud. Обе специализации подверглись капитальному ремонту в феврале 2020 года. Это руководство применимо к переработанным версиям обеих из них. Я объясню небольшую разницу между ними (и как убить двух зайцев одним выстрелом, если вы этого хотите).

1. Варианты обучения для Google Cloud

Этот раздел поможет вам понять специализацию в контексте и увидеть, как она соотносится с различными вариантами обучения. При наличии нескольких альтернатив не всегда очевиден поиск наилучшего пути обучения.

Варианты для Google Cloud включают:

Лаборатории
Квесты
Курсы
Специализации
Профессиональные сертификаты.

Некоторые темы, такие как BigQuery, Data Studio и блокноты AI, рассматриваются в нескольких лабораторных работах, курсах и специализациях, хотя и с разной степенью глубины.

Для простоты рассматривайте курс как стандартную единицу, которую вы будете использовать, чтобы осмысленно «чему-то научиться». Затем свяжите с этой концепцией курса все остальные восходящие или нисходящие варианты.

Курсы создаются Google, но доступны через внешних поставщиков, таких как Coursera и Pluralsight.
Курс, наряду с видео и материалами для чтения, предоставит вам доступ к нескольким лабораторным занятиям, которые будут назначены как часть домашнего задания. Эти лаборатории проводятся Qwiklabs, обучающей компанией, которая была приобретена Google.
Если вам нужно больше практики, вы обычно можете найти дополнительные лабораторные работы, связанные с конкретной интересующей темой, на сайте Qwiklabs. Доступно более 400 лабораторий, охватывающих практически все продукты Google Cloud.
Многие лаборатории объединяют более одного продукта Google Cloud. Эти связанные лаборатории образуют группы, так называемые квесты, которые могут иметь различные уровни сложности.
Специализация - это обычно четыре или пять курсов, посвященных более широкой теме, например инженерии данных.
После успешного завершения специализации вы можете начать думать о соответствующем сертификационном экзамене Google (подробнее об этом ниже).

2. О чем идет речь

На высоком уровне

Специализация учит, как проектировать конвейеры данных в облаке и управлять ими: от доступа к данным из различных источников и преобразования и их хранения до выполнения аналитики. для бизнес-аналитики или машинного обучения для прогнозов. Затем он научит вас, как упаковать все эти шаги и автоматизировать конвейер данных. Рабочие процессы должны быть адаптированы к любому типу объема данных, скорости и разнообразию.

Данные поступают в пакетном или потоковом режиме? Это структурированный или неструктурированный? Он маленький или очень большой? Это аспекты работы, с которыми инженер по обработке данных должен уметь хорошо справляться, и все они подробно рассматриваются в курсе.

Конечная цель - повысить ценность за счет принятия решений на основе данных для бизнеса.

Продукты

Когда видимым конечным продуктом является, например, интерактивная панель управления в реальном времени или адаптивное веб-приложение на основе машинного обучения, инженер по обработке данных часто оказывается невидимым героем, который делает все это возможным.

Однако для достижения всего этого необходимо знать все большее количество инструментов Google Cloud, которые постепенно рассматриваются в 6 курсах, составляющих специализацию.

Вот некоторые из ключевых продуктов, на которые распространяется действие:

Облачное хранилище, BigQuery, включая BigQuery ML и Data Studio, Dataflow, Dataproc, Pub / Sub, Composer, Datafusion, Kubeflow, ML API, AutoML, записные книжки AI.

Если вы хотите узнать больше об этих продуктах, существует удобное руководство, в котором каждый из них и многие другие продукты Google Cloud описываются не более четырех слов.

Научиться работать со всеми этими продуктами - все равно что собрать мозаику из различных продуктов Google Cloud, где вам нужно решить, какие части лучше всего подходят друг другу, чтобы достичь разумного баланса между производительностью. , практичность реализации и экономичность.

3. Зачем нужна специализация?

Если вы профессионально движетесь в направлении инженерии данных (для этого есть веские причины), ответ на этот вопрос очевиден.

Если вам интересно, зачем делать это в облаке, обещание автоматизации No Ops / Serverless может быть весьма привлекательным.

Более того, если вы являетесь аналитиком данных, специалистом по анализу данных или руководителем таких групп, эта специализация будет очень актуальна для вас, если вы хотите понять спектр возможностей, открывающихся при использовании Cloud + AI + Данные собираются вместе. Если это относится к вам, я рекомендую пройти следующие 3 курса по специализации:

4. Обзор

4.1 Основная информация о специализации

Уровень сложности. Уровень сложности средний по сравнению с другими курсами программирования Coursera, так как на самом деле вам не нужно отлаживать код.

Требование времени. По той же причине, что и выше, вы можете довольно быстро пройти шесть курсов, если хотите. Но не рекомендуется ужимать все курсы в одну-две недели. Лучше дать себе время усвоить концепции и попрактиковаться в процессе.

Оценки. Для успешной сдачи тестов и лабораторных работ требуется 80% или более, но вы можете пройти их несколько раз. Окончательный результат не содержит числовой или буквенной оценки (это просто пропуск).

Необходимые знания:

SQL и понимание концепций и терминологии управления базами данных / извлечения-преобразования-загрузки / больших данных
Базовая командная строка
Базовые знания языка сценариев (в некоторых лабораторных работах используется Python)

Также полезно знакомство с общими концепциями облака (виртуальные машины, хранилище и т. Д.) И машинного обучения, хотя вводный курс поможет вам быстрее освоить эти концепции.

Достаточно базовых знаний. Нет необходимости в глубоких знаниях ни в одной из вышеперечисленных областей.

4.2 Что в этом хорошего?

Качественная продукция и удобный материал с естественным перетеканием между курсами и различными разделами.
Обновленное содержимое 2020 г., включая некоторые интересные функции, которые все еще находятся на стадии альфа-тестирования.
Хороший баланс между концепцией и практическими аспектами.
Множество практических занятий и демонстраций на всех курсах.
Контекст и перспектива того, как различные инструменты и технологии развивались с течением времени.
Все написано либо на SQL, либо на Python (программирование на Java не требуется, что делает курс более инклюзивным).
Советы и рекомендации о том, как снизить расходы, особенно для BigQuery.

4.3 Что не хватает?

Больше возможностей для написания кода, и лабораторные работы, как правило, становятся более автономными по мере продвижения.
Больше разговоров на активном форуме
Более подробные тесты, которые помогут лучше понять концепции.
Больше TensorFlow, хотя бы обзор или введение. Несмотря на то, что это фирменный проект Google, TensorFlow практически отсутствует.
Больше контента, выходящего за рамки нескольких строк кода SQL, необходимых для построения модели машинного обучения. Он также должен охватывать основы процесса машинного обучения, возможные подводные камни и способы оценки результатов, чтобы инженеры по обработке данных могли применять его более уверенно.
Дополнительные обсуждения стоимости обслуживания и сравнения с другими доступными вариантами. Например, «Сколько в среднем будет стоить проведение лабораторных работ, если они будут проводиться вне курса?»

4.4 Основные моменты

Вот мои личные особенности об аналитике и разработке данных в Google Cloud, основанные на моем опыте работы со специализацией:

1. Повсеместное распространение BigQuery

BigQuery предоставляет гораздо больше функциональных возможностей, чем те, которые можно найти в хранилище данных. Он присутствует в каждом отдельном курсе и подключается почти к каждому этапу конвейера разработки данных. Его положение, вероятно, останется центральным, поскольку границы между озерами данных и хранилищами данных становятся размытыми, а традиционный ETL начинает больше походить на ELT.

2. Доступность машинного обучения на нескольких уровнях

Возникла новая реальность с точки зрения доступности и масштабируемости машинного обучения с помощью таких продуктов, как BigQuery и BigQuery ML (фреймворк, интегрированный в BigQuery), а также в сочетании с AutoML и предварительно обученные API машинного обучения. Теперь у разработчиков, аналитиков и специалистов по обработке данных есть возможность подойти к машинному обучению с разных сторон.

3. Автоматизация конвейеров машинного обучения

После пунктов 1 и 2 следующий уровень абстракции достигается за счет управляемого опыта конвейеров Kubleflow на платформе AI. Конвейеры Kubeflow управляют BigQuery и BigQuery ML, а также множеством других шагов в рамках полного рабочего процесса машинного обучения (предварительная обработка данных, разработка функций, обучение и развертывание моделей), что позволяет создать решение для машинного обучения, которое является масштабируемым и многоразовым.

Примечание. Во время курса вы получите лишь небольшую часть этого, но перспектива достижения этого без необходимости управления кластерами Kubernetes, безусловно, многообещающая.

5. Практические советы

1. Получите офлайн-доступ.

Если вы хотите работать над курсами в автономном режиме и не отвлекаясь, а также создавать библиотеку со всем соответствующим контентом, вы можете использовать Coursera-dl, инструмент с открытым исходным кодом, который автоматически загружает все доступные видео и слайды.

2. Доступ к коду.

Если у вас нет времени на прохождение всей специализации, но вы все равно хотите увидеть примеры и используемый код, вы можете найти весь код, использованный в лабораторных работах, который очень похож на библиотеку рецептов, в этом репозитории GitHub. ».

3. Доступ к ресурсам

На каждую лабораторию дается 1,5–2 часа, что обычно более чем достаточно, а оставшееся время можно использовать для экспериментов с Google Cloud без списания средств с кредитной карты.

Комбинируйте слайды, видео, демонстрации, лабораторные работы и код из репозиториев GitHub и систематизируйте их так, как вам удобно. Таким образом, вы можете создать библиотеку рецептов, которая поможет вам разобраться во многих типичных случаях использования, что очень полезно, особенно на первых шагах после курса.

4. 2 сертификации в 1

Вы предпочитаете, чтобы в окончательном сертификате говорилось «Инженерия данных, большие данные и машинное обучение в GCP» вместо «Инженерия данных»? Эти две специализации практически одинаковы. Единственное отличие состоит в том, что специализация «Инженерия данных» содержит один дополнительный курс, который предназначен для подготовки к профессиональному экзамену. После того, как вы закончите со специализацией по инженерии данных, вы можете записаться на другую, и вы сразу же получите другую сертификацию (без дополнительных затрат и без дополнительных курсов или лабораторных работ).

5. Первый месяц бесплатно.

Если у вас нет спонсора, Google часто предоставляет 1-й месяц бесплатно или с большой скидкой через предложения веб-семинаров CloudOnAir или другие рекламные акции - обратите внимание на них. Кроме того, вы всегда можете отредактировать курс перед его покупкой (ищите эту опцию при регистрации, так как она может быть не очень заметна). В любом случае, это отличное соотношение цены и качества, если учесть, что тот же контент, предлагаемый в автономном режиме, может стоить более 2000 фунтов стерлингов / долларов.

6. Следующие шаги - сертификационный экзамен

Советы для успешной сдачи профессионального экзамена

Советы в этом разделе любезно предоставлены сертифицированным инженером Сурадж Пабари.

Прохождение 6 курсов специализации, конечно же, не гарантирует, что вы хорошо разбираетесь в теме.

После завершения специализации и накопления значительного практического опыта следующим возможным шагом будет подготовка к экзамену Professional Data Engineer Exam. Это формальная квалификация, которая демонстрирует ваш опыт как вашим клиентам, так и работодателям.

Как вы готовитесь к экзамену после прохождения специализации?

Далее следуют три замечательных совета:

1. Поймите, почему: задавая практические экзаменационные вопросы, вместо того, чтобы переходить к ответу, который "кажется правильным", постарайтесь понять, почему ответ может быть правильным. например Следует ли использовать BigTable вместо BigQuery? В каких ситуациях вы можете использовать BigQuery? Почему бы не использовать Google Cloud Storage? Просмотрите все предложенные варианты и попытайтесь понять, где каждый из них может быть применим. Если вы ошиблись, постарайтесь понять, почему вы ошибались, чтобы не повторить одну и ту же ошибку дважды.

2. Примеры использования. Специализация включает несколько полезных примеров: просмотрите их и попытайтесь разработать инфраструктуру, которая будет работать с учетом ограничений. Это проверит ваше понимание, а также будет очень применимо к потенциальным реальным жизненным проблемам, с которыми вы можете столкнуться. Подумайте о компромиссах на каждом этапе и придумывайте варианты. Вы также можете подумать о требованиях к компаниям, с которыми вы работаете, и попытаться создать наиболее подходящую инфраструктуру.

3. Практикуйтесь в применении своих знаний: чтобы убедиться, что вы действительно понимаете концепции, поставьте перед собой задачи и проверьте, сможете ли вы решить их с помощью продуктов Google Cloud. У Kaggle есть несколько отличных примеров (также с ответами в блокноте). Подумайте о полезных примерах с общедоступными источниками данных: например, можете ли вы использовать BQML для прогнозирования взаимосвязи между количеством случаев COVID и курсом акций или построить модель склонности к покупке с использованием данных Google Analytics.

Чтобы получить дополнительные советы, я рекомендую прочитать Запись в блоге Панайотиса Цамциса и SlideShare Виноая Виджеякумара.

Также обратите внимание, что с мая 2020 года официальное учебное пособие для сертифицированного профессионального инженера по данным Google Cloud доступно в печатном формате.

7. Дальнейшие действия - дополнительные предложения

В качестве альтернативы вы можете перейти к другой специализации из трека данных, например От данных к аналитике или Машинное обучение с TensorFlow. Некоторые темы, такие как BigQuery или платформа AI, более подробно рассматриваются в этих других специализациях.

Другой вариант - пойти на глубину, а не на широту охвата, и сосредоточиться на аспектах инженерии данных, которые вы считаете наиболее актуальными для вашей собственной работы, при этом осознавая всю полноту рисунок.

Вы можете следить за сообществами и отдельными людьми, которые делятся контентом, связанным с вашими интересами в области инженерии данных.

Например, если вас интересуют BigQuery и BigQuery ML, вы найдете отличный контент, которым поделился Googler Лак Лакшманан, автор BigQuery Definitive Guide и инструктор по специализации, а также Разработчик Google защищает Фелипе Хоффа (вместе с его твиттер-листом BigQuery) и Полонг Лин.

Дополнительные предложения:

Посетите Сообщество GCP Slack (есть канал, посвященный # инженерии данных).
Зарегистрируйтесь в частном сообществе владельцев профессиональных сертификатов Coursera (вы будете получать сообщения от Coursera после прохождения всех курсов).
Найдите местные сообщества разработчиков Google и изучите варианты обучения, которые предлагаются исключительно через эти группы.
Поскольку обновления продуктов выходят еженедельно, рекомендуется следить за блогом Google Cloud или другими связанными ресурсами, чтобы оставаться в курсе (некоторые аспекты обучения со временем устареют).

В заключение

Специализация Data Engineering - отличный вариант для всех, кто хочет научиться проектировать и разрабатывать конвейеры данных в Google Cloud.

Если вы хотите стать инженером по обработке данных или просто хотите лучше понять эту захватывающую область, я рекомендую начать с выборки контента из одного из курсов, чтобы понять, как он выглядит. как на практике. Ознакомьтесь с подробным планом оставшихся курсов и решите, подходят ли вам один, несколько или все курсы по специализации.

Большое спасибо опытным разработчикам GCP Сурадж Пабари и Панайотис Цамцис за их вклад в руководство и их отзывы.

Особая благодарность Марку Эдмондсону, чье программное обеспечение и статьи с открытым исходным кодом познакомило меня с Google Cloud в области цифрового маркетинга.

У вас есть еще советы по специализации или пути к сертификационному экзамену? Пожалуйста, оставьте их в разделе комментариев ниже.

Алекс Папагеоргиу

Я независимый консультант в области маркетинговой аналитики и обработки данных, помогаю цифровым компаниям, ориентированным на конверсию, принимать обоснованные маркетинговые решения. Я делюсь своими историями о цифровых технологиях, маркетинге и аналитике данных - часто вместе - в моем блоге и через Twitter и LinkedIn.

Алекс Папагеоргиу, консультант по маркетинговой аналитике, бывший сотрудник Google | www.alex-papageo.com | LinkedIn
www.linkedin.com

Истории, которые я опубликовал на Medium, могут вам также понравиться:

Изучение значения ИИ, науки о данных и машинного обучения с помощью последней версии Википедии…
Такие термины, как наука о данных, машинное обучение и искусственный интеллект, нашли заслуженное место в … кdatascience.com

Ядра, клики и деревья ускорения: основные моменты первого конкурса Google Analytics Kaggle
Мои выводы из участия в популярном конкурсе Google Analytics Kaggle, который завершился на прошлой неделе. medium.com

Выбор между R и Python: руководство для цифрового аналитика
« R или Python? Что выбрать цифровому аналитику? medium.com

Инженерия данных по специализации GCP: подробное руководство для профессионалов в области данных

ПОЛНОЕ РУКОВОДСТВО ДЛЯ ПРОФЕССИОНАЛОВ ДАННЫХ