Содержание
- Кто такой разработчик больших данных
- Предполагаемая зарплата
- Рабочая нагрузка и день в жизни
- Структура команды
- Возобновить строительство
- Корпоративная лестница
Кто такой разработчик больших данных?
Большие данные относятся к большому количеству данных, которые генерируются при ежедневном использовании данных. Эти данные могут быть из любого источника, такого как сообщения в социальных сетях, датчики, онлайн-видео, цифровые изображения, записи транзакций онлайн-покупок, мобильные телефоны, трафик на различных веб-сайтах, сообщения электронной почты и так далее.
Самый ценный ресурс в мире сейчас — это большие данные, а не нефть
— The Economist
Разработчики больших данных несут ответственность за фактическое кодирование или программирование приложений Hadoop: очень похоже на разработчика программного обеспечения. Они могли работать с триллионами байтов данных каждый день с помощью различных языков программирования, таких как Java, C++, Ruby и т. д., а также нескольких баз данных.
В отличие от специалиста по обработке и анализу данных, инженер по работе с большими данными вряд ли будет иметь дело со статистическими методами и машинным обучением.
Примеры нескольких компаний, которые используют большие данные:
- Walmart. Решения для работы с большими данными в Walmart разрабатываются с целью изменения дизайна глобальных веб-сайтов и создания инновационных приложений для персонализации покупательского опыта при одновременном повышении эффективности логистики.
- Uber. Uber чаще всего использует данные для повышения цен.
- Netflix. Компания Netflix была настроена на то, чтобы с помощью больших данных предсказать, что именно понравится ее клиентам. Таким образом, аналитика больших данных — это топливо, которое запускает «механизм рекомендаций», предназначенный для этой цели.
В обязанности инженера по работе с большими данными входит следующее:
- Разрабатывать и поддерживать конвейеры данных, реализующие процессы ETL.
- Проектирование, сборка, установка, настройка и поддержка Hadoop
- Обеспечьте безопасность и конфиденциальность данных
- Высокоскоростные запросы.
- Предложение изменений дизайна и предложений по процессам и продуктам
- Управление и развертывание HBase.
- Выполняйте анализ обширных хранилищ данных и раскрывайте идеи.
- Разработка и внедрение Hadoop.
- Работа с разрозненными наборами данных.
- Создавайте масштабируемые и высокопроизводительные веб-сервисы для отслеживания данных.
Предполагаемая зарплата
Зарплата новичка в области больших данных обычно колеблется в пределах 4–9 LPA в зависимости от различных факторов, таких как компания, ее должность, местоположение и, что наиболее важно, ваши результаты на собеседовании, должность, на которую вас наняли, и т. д.
Рабочая нагрузка и день в жизни
О рабочей нагрузке и повседневной жизни Виталий Дедков, ведущий аналитик бизнес-аналитики/инженер данных из России, пишет в ответе на квору
“ Это бывает по-разному, но я много времени трачу на работу с нашей коллегой по работе с данными и бизнес-группой, пытаясь точно понять, что нужно сделать и как это сделать. таким образом, чтобы мы могли быстро и с минимальными затратами добиться результатов.
Это означает, что я провожу свой день, работая над конвейером, тестируя набор результатов, а затем просматривая их вместе с конечными пользователями.
Кроме того, это также означает постоянное обновление документации, чтобы убедиться, что если я когда-нибудь захочу посмотреть, что я сделал несколько месяцев назад, я смогу найти то, что записал.
После того, как все это будет сделано, попробуйте отслеживать последние новости, поступающие из Azure/GCP/AWS по темам Data Engineering. Сюда также входит поиск новостей о более традиционных инструментах ETL, таких как Informatica, SAP BODS и Talend.
Структура команды
- Инженеры-программисты играют ключевую роль в команде по работе с большими данными, создавая программное обеспечение, позволяющее собирать фактические данные.
- Статистики поддерживают работу команды по работе с большими данными, используя математику для сбора, анализа и интерпретации данных, которые другие члены команды получили в ходе выполнения своих обязанностей. Они также очень хорошо определяют, какой метод использовать для сбора данных для конкретной цели.
- Специалисты по гигиене данных «очищают» данные и уточняют их, обеспечивая их пригодность для использования в течение всего жизненного цикла.
- Архитекторы данных могут брать все ваши данные и преобразовывать их в наборы, с которыми может легко работать вся ваша организация.
- Исследователи данных приходят, создавая сложные аналитические модели, которые используют собранные данные для предоставления вашей бизнес-информации, которая является чрезвычайно ценной.
- Визуализаторы умеют брать необработанные данные и изменять их формат, делая его более понятным. Это могут быть графики, списки, таблицы, инфографика, слайды и даже короткие анимационные ролики.
- Бизнес-аналитики взаимодействуют с различными членами группы по работе с большими данными, а также с основными заинтересованными сторонами компании. Их роль заключается в обеспечении того, чтобы все в команде по работе с большими данными знали ключевые цели организации и активно работали над их достижением.
Разработчик больших данных работает на разных уровнях этой иерархии, которая включает данные и исключает статистику.
Возобновить строительство
Необходимым условием для начала обучения внедрению технологий больших данных является опыт программирования на любом языке.
Различные профили в области больших данных требуют разного набора навыков, но есть несколько общих технологий, которые вы должны знать, прежде чем подавать заявку на работу с большими данными.
Это обязательные навыки разработчика больших данных, которые ищут компании:
- Опыт работы с Python, Spark, Hive
- Понимание методов хранения данных и моделирования данных
- Знание отраслевых инструментов анализа и визуализации (Tableau и R)
- Необходимы сильные навыки работы с данными на облачной платформе Azure.
- Потоковые фреймворки, такие как Kafka
- Знание основных языков Java, Linux, SQL и любого скриптового языка
- Хорошие навыки межличностного общения и позитивный настрой
Однако должность «Администратор больших данных» не требует знания программирования. Подробнее об этом здесь
Корпоративная лестница
Первокурсники могут претендовать на следующие роли в Big Data:
- Разработчик больших данных (опыт от 0 и более лет)
👉 Подходит для тех, кто умеет программировать. Он / она должен иметь базовые знания Java, SQL и любого языка сценариев, а также хорошие навыки межличностного общения.
👉 Разработчик больших данных отвечает за кодирование или программирование приложений Hadoop. - Администратор больших данных ( опыт работы от 0 и более лет)
👉 Вы можете начать карьеру в качестве администратора больших данных, изучив такие понятия, как установка Hadoop, конфигурация Hadoop, управление кластером и т. д. не требует знаний кодирования.
Корпоративная лестница для инженера данных/архитектора данных/количественного аналитика будет выглядеть примерно следующим образом. Поскольку эта роль является более нишевой и центральной для организации, горизонтальное перемещение встречается редко. Однако по той же причине эта работа является наиболее невосприимчивой к увольнениям.
Я публикую контент каждую неделю. Следуйте за мной на Medium и давайте расти вместе, чтобы стать лучшим разработчиком программного обеспечения 👏