Содержание

  1. Кто такой разработчик больших данных
  2. Предполагаемая зарплата
  3. Рабочая нагрузка и день в жизни
  4. Структура команды
  5. Возобновить строительство
  6. Корпоративная лестница

Кто такой разработчик больших данных?

Большие данные относятся к большому количеству данных, которые генерируются при ежедневном использовании данных. Эти данные могут быть из любого источника, такого как сообщения в социальных сетях, датчики, онлайн-видео, цифровые изображения, записи транзакций онлайн-покупок, мобильные телефоны, трафик на различных веб-сайтах, сообщения электронной почты и так далее.

Самый ценный ресурс в мире сейчас — это большие данные, а не нефть
— The Economist

Разработчики больших данных несут ответственность за фактическое кодирование или программирование приложений Hadoop: очень похоже на разработчика программного обеспечения. Они могли работать с триллионами байтов данных каждый день с помощью различных языков программирования, таких как Java, C++, Ruby и т. д., а также нескольких баз данных.

В отличие от специалиста по обработке и анализу данных, инженер по работе с большими данными вряд ли будет иметь дело со статистическими методами и машинным обучением.

Примеры нескольких компаний, которые используют большие данные:

  • Walmart. Решения для работы с большими данными в Walmart разрабатываются с целью изменения дизайна глобальных веб-сайтов и создания инновационных приложений для персонализации покупательского опыта при одновременном повышении эффективности логистики.
  • Uber. Uber чаще всего использует данные для повышения цен.
  • Netflix. Компания Netflix была настроена на то, чтобы с помощью больших данных предсказать, что именно понравится ее клиентам. Таким образом, аналитика больших данных — это топливо, которое запускает «механизм рекомендаций», предназначенный для этой цели.

В обязанности инженера по работе с большими данными входит следующее:

  1. Разрабатывать и поддерживать конвейеры данных, реализующие процессы ETL.
  2. Проектирование, сборка, установка, настройка и поддержка Hadoop
  3. Обеспечьте безопасность и конфиденциальность данных
  4. Высокоскоростные запросы.
  5. Предложение изменений дизайна и предложений по процессам и продуктам
  6. Управление и развертывание HBase.
  7. Выполняйте анализ обширных хранилищ данных и раскрывайте идеи.
  8. Разработка и внедрение Hadoop.
  9. Работа с разрозненными наборами данных.
  10. Создавайте масштабируемые и высокопроизводительные веб-сервисы для отслеживания данных.

Предполагаемая зарплата

Зарплата новичка в области больших данных обычно колеблется в пределах 4–9 LPA в зависимости от различных факторов, таких как компания, ее должность, местоположение и, что наиболее важно, ваши результаты на собеседовании, должность, на которую вас наняли, и т. д.

Рабочая нагрузка и день в жизни

О рабочей нагрузке и повседневной жизни Виталий Дедков, ведущий аналитик бизнес-аналитики/инженер данных из России, пишет в ответе на квору

Это бывает по-разному, но я много времени трачу на работу с нашей коллегой по работе с данными и бизнес-группой, пытаясь точно понять, что нужно сделать и как это сделать. таким образом, чтобы мы могли быстро и с минимальными затратами добиться результатов.

Это означает, что я провожу свой день, работая над конвейером, тестируя набор результатов, а затем просматривая их вместе с конечными пользователями.

Кроме того, это также означает постоянное обновление документации, чтобы убедиться, что если я когда-нибудь захочу посмотреть, что я сделал несколько месяцев назад, я смогу найти то, что записал.

После того, как все это будет сделано, попробуйте отслеживать последние новости, поступающие из Azure/GCP/AWS по темам Data Engineering. Сюда также входит поиск новостей о более традиционных инструментах ETL, таких как Informatica, SAP BODS и Talend.

Структура команды

  • Инженеры-программисты играют ключевую роль в команде по работе с большими данными, создавая программное обеспечение, позволяющее собирать фактические данные.
  • Статистики поддерживают работу команды по работе с большими данными, используя математику для сбора, анализа и интерпретации данных, которые другие члены команды получили в ходе выполнения своих обязанностей. Они также очень хорошо определяют, какой метод использовать для сбора данных для конкретной цели.
  • Специалисты по гигиене данных «очищают» данные и уточняют их, обеспечивая их пригодность для использования в течение всего жизненного цикла.
  • Архитекторы данных могут брать все ваши данные и преобразовывать их в наборы, с которыми может легко работать вся ваша организация.
  • Исследователи данных приходят, создавая сложные аналитические модели, которые используют собранные данные для предоставления вашей бизнес-информации, которая является чрезвычайно ценной.
  • Визуализаторы умеют брать необработанные данные и изменять их формат, делая его более понятным. Это могут быть графики, списки, таблицы, инфографика, слайды и даже короткие анимационные ролики.
  • Бизнес-аналитики взаимодействуют с различными членами группы по работе с большими данными, а также с основными заинтересованными сторонами компании. Их роль заключается в обеспечении того, чтобы все в команде по работе с большими данными знали ключевые цели организации и активно работали над их достижением.

Разработчик больших данных работает на разных уровнях этой иерархии, которая включает данные и исключает статистику.

Возобновить строительство

Необходимым условием для начала обучения внедрению технологий больших данных является опыт программирования на любом языке.

Различные профили в области больших данных требуют разного набора навыков, но есть несколько общих технологий, которые вы должны знать, прежде чем подавать заявку на работу с большими данными.

Это обязательные навыки разработчика больших данных, которые ищут компании:

  • Опыт работы с Python, Spark, Hive
  • Понимание методов хранения данных и моделирования данных
  • Знание отраслевых инструментов анализа и визуализации (Tableau и R)
  • Необходимы сильные навыки работы с данными на облачной платформе Azure.
  • Потоковые фреймворки, такие как Kafka
  • Знание основных языков Java, Linux, SQL и любого скриптового языка
  • Хорошие навыки межличностного общения и позитивный настрой

Однако должность «Администратор больших данных» не требует знания программирования. Подробнее об этом здесь

Корпоративная лестница

Первокурсники могут претендовать на следующие роли в Big Data:

  • Разработчик больших данных (опыт от 0 и более лет)
    👉 Подходит для тех, кто умеет программировать. Он / она должен иметь базовые знания Java, SQL и любого языка сценариев, а также хорошие навыки межличностного общения.
    👉 Разработчик больших данных отвечает за кодирование или программирование приложений Hadoop.
  • Администратор больших данных ( опыт работы от 0 и более лет)
    👉 Вы можете начать карьеру в качестве администратора больших данных, изучив такие понятия, как установка Hadoop, конфигурация Hadoop, управление кластером и т. д. не требует знаний кодирования.

Корпоративная лестница для инженера данных/архитектора данных/количественного аналитика будет выглядеть примерно следующим образом. Поскольку эта роль является более нишевой и центральной для организации, горизонтальное перемещение встречается редко. Однако по той же причине эта работа является наиболее невосприимчивой к увольнениям.

Я публикую контент каждую неделю. Следуйте за мной на Medium и давайте расти вместе, чтобы стать лучшим разработчиком программного обеспечения 👏