Типовой проект инженерии данных - обмен данными от группы разработки данных Netflix

На прошлой неделе мне посчастливилось побывать на семинаре WiBD, организованном командой разработчиков данных Netflix. Я ранее общался с инженерами по обработке данных из многих ведущих технологических компаний, таких как LinkedIn, Facebook, а также с их коллегами из быстрорастущих стартапов. Неудивительно - роль инженера по обработке данных значительно варьируется от одной компании к другой. Следовательно, путь к инженерии данных всегда окутан тайной. Мне было очень приятно понять, чем в первую очередь занимаются специалисты по обработке данных в Netflix, и получить представление о них в ходе практического упражнения.

Типичный проект инженерии данных

Старший инженер по обработке данных Рашми Шампрасад любезно провела вечер, обучая нас. Ключевое резюме ее рассказа ниже:

Всегда начинайте с понимания постановки проблемы от вашей заинтересованной стороны
Исследование данных: данные поступают из файлов журналов, хранилищ данных, сторонних API и т. Д. Важно изучить структуру, объем, степень детализации и периодичность ваших данных.
Моделирование данных: структурируйте, как конечный результат должен выглядеть с учетом вашего потребителя, учитывайте размерность ваших данных, ключевые метрики, которые необходимо сообщать, и взаимосвязь между наборами данных.
Преобразование данных: фильтрация, обогащение, стандартизация и агрегирование данных
Качество данных: проверяйте тенденции данных, ищите недостающие пробелы и аномалии в данных.

Сотрудничество с другими командами - важная часть повседневной работы дата-инженера:

Инженеры пользовательского интерфейса: ведение журналов и инструментарий
Другие инженеры по обработке данных, работающие с теми же наборами данных
Специалисты по обработке данных и аналитики данных: разбирайтесь в их экспериментах и анализе, чтобы подготовить данные для анализа
Команда платформы данных: соображения по эффективности и масштабируемости

Практическое упражнение

Не волнуйтесь, если приведенное выше резюме звучит немного теоретически. Мы перешли на практическую практику, чтобы построить конвейер Spark, выполнив описанные выше шаги с использованием Python. Это упражнение отлично подходит для всех, кто плохо знаком с PySpark и хочет получить представление о проекте для начинающих. Я могу представить, что будет сложно найти такой блокнот Jupyter в Google, так что это определенно настоящая жемчужина, которую вы, возможно, захотите добавить в закладки.

Хотя это далеко не полное представление о реальных проектах, которыми занимаются специалисты по обработке данных в Netflix, полезно увидеть приведенную выше методологию в действии.

Как мне проникнуть в инженерию данных?

Многие участники задавались вопросом, как проникнуть в инженерию данных, не имея опыта работы с большими объемами данных, аналогичными масштабам Netflix. Советы, данные инженерами по обработке данных Netflix, были довольно последовательными:

Создайте портфолио: потренируйтесь создавать что-то на своем локальном компьютере, прочтите документацию, разверните несколько экземпляров EC2, чтобы иметь возможность работать в облачной среде
Да, инструменты для работы с большими данными постоянно меняются, и вы не сможете быть экспертом во всем. Однако вы можете найти основной стек данных любой компании из их инженерных блогов или из презентаций на различных конференциях. Убедитесь, что у вас есть опыт работы с этими инструментами, если вы проводите собеседование с конкретными компаниями.
Всегда полагайтесь на свои силы. Компании тоже любят людей с интуитивным пониманием данных!

Я написал этот пост, потому что пребывание в районе залива дает мне большой доступ к ценным отраслевым идеям и информации. Я думал, что те из вас, энтузиасты больших данных, не живущие в непосредственной близости от каких-либо технологических центров, вероятно, могут извлечь выгоду из аналогичного обмена. Надеюсь, вам понравилось! Пожалуйста, обратите внимание, что этот пост является моим личным мнением и не отражает официальное мнение Netflix.

Я также начал репозиторий на Github, чтобы собирать больше информации о событиях в заливе и моих прошлых беседах с инженерами по обработке данных здесь. Я добавляю контент со временем и хотел бы получить больше комментариев и комментариев! Отправьте нам PR или оставьте свои мысли ниже :)

Типовой проект инженерии данных - обмен данными от группы разработки данных Netflix

Типичный проект инженерии данных

Практическое упражнение

Как мне проникнуть в инженерию данных?

Вопросы по теме