Наука о данных — это новое модное слово, которое сегодня правит миром. По сути, это область, которая применяет множество процессов, научных методов и алгоритмов к данным для извлечения проницательных знаний. В основном он обрабатывает данные, доступные в больших объемах и в различных форматах.

Отмечая его важность и охват различных областей работы, это порождает разные рабочие роли и разные возможности. В этой статье можно понять обзор области науки о данных и принять решение о путешествии в науку о данных на основе интересов и навыков.

Этот блог вращается вокруг следующих моментов:

1. Генерация данных и их типы

2.Что такое наука о данных?

3. Различные рабочие роли и их анализ по следующим ключам:

- Роли и обязанности

-Технологии для работы

-Диапазон зарплат (Индия/США)

4. Вывод

1. Генерация данных и их типы

Принимая во внимание цифровой мир, его быстрое техническое развитие и изобилие технологий, позволяющих вести легкий образ жизни, мы генерируем данные объемом 1,145 трлн МБ в день [1]. Эти данные необходимы для анализа в бизнесе или для получения полезной информации, которая способствует социальному или экономическому росту. Мы ежедневно генерируем много данных, используя различные устройства и устройства, такие как использование мобильных устройств для банковских операций, оплаты счетов или покупок, бронирования билетов или серфинга, контроллер переменного тока, Alexa/Siri, смарт-часы, социальные платформы и т. д. Давайте посмотрим на статистика данных генерируется ежедневно.

  • Каждую секунду создается пять новых профилей Facebook![2]
  • Ежедневно загружается более 300 миллионов фотографий [2]
  • Каждую минуту публикуется 510 000 комментариев и обновляется 293 000 статусов [2]
  • В среднем сейчас Google обрабатывает более 40 000 поисковых запросов КАЖДУЮ секунду (3,5 миллиарда поисковых запросов в день)![2]
  • Более 120 специалистов присоединились к LinkedIn [2]
  • Пользователи просматривают 4 146 600 видео на YouTube [2]
  • В Twitter отправлено 456 000 твитов [2]
  • В WhatsApp отправляется 65 миллиардов сообщений [3]

Эти сгенерированные данные представлены в различных форматах, таких как большие данные, данные с отметками времени, машинные данные, пространственно-временные данные, открытые данные и данные в реальном времени. Эти форматы данных можно разделить на три основные категории:

1.Структурированные данные. Он работает с предопределенной моделью данных и прост в работе. Он сформулирован в табличном формате с отношениями в строках и столбцах. Например, таблицы в СУБД, текстовые/CSV-файлы.

2. Неструктурированные данные. У них нет заранее определенной модели или структурированного способа. Хотя у него будут типы данных (число, число с плавающей запятой, строка или даты), которые можно использовать для понимания данных. Например, аудио/видеофайлы, файлы базы данных No-SQL.

3. Полуструктурированные данные. Это форма структурированных данных, которые не описываются как структурированные данные, но определяются с помощью тегов и маркеров для определения семантических элементов и иерархии данных. данные. Например, файлы JSON, XML.

2. Что такое наука о данных?

Наука о данных — это область, состоящая из трех основных областей: математики, информатики и предметной области. Чтобы работать / анализировать данные различными способами, чтобы прийти к открытию, математика важна для статистического анализа данных, для обработки или очистки данных или для обработки различных форматов данных, необходима компьютерная наука и, в конечном итоге, чтобы прийти к выводу в области знаний с точки зрения бизнеса. необходимо обеспечить платформу для принятия решений. Это легко понять, следуя схеме.

3.Различные должности и их анализ

Из-за междисциплинарного характера науки о данных возникают различные рабочие роли с учетом рабочих обязанностей и знаний. Тем не менее, в основном его можно разделить на следующие рабочие роли:

1.Бизнес-аналитик

2. Аналитик данных

3. Инженер данных

4. Специалист по данным

5. Инженер по машинному обучению/инженер по искусственному интеллекту

Все вышеперечисленные роли имеют свою специализацию и важность на пути от необработанных данных к проницательному обнаружению данных. Давайте углубимся в роли и обязанности, технологии, необходимые для изучения/работы, и средние. зарплата в Индии и США для новичков и опытных в отношении каждой должности, упомянутой выше.

1. Роли и обязанности:

Бизнес-аналитик (BA). Эта роль предполагает наличие глубоких бизнес-знаний и визуализации данных для понимания или работы с очищенными данными для выявления закономерностей в данных.

Аналитик данных (DA): они работают над сбором данных, их анализом и созданием отчетов, чтобы показать полученную информацию заинтересованным сторонам бизнеса для принятия бизнес-решений.

Разница между бизнес-аналитиком и аналитиком данных: BA больше сосредоточен на социальных навыках, критическом мышлении и опыте в предметной области, в то время как DA - на технических знаниях для технического и аналитического представления данных.

Инженер данных. Требуется больше технически подкованных специалистов. Они должны работать с большими данными, очищать/управлять и хранить большие данные, создавать данные в читаемом формате для специалистов по данным или аналитиков данных.

Data Scientist (DS):эти люди занимаются обработкой данных, изучением вариантов использования в бизнесе, созданием моделей данных и получением информации для принятия решений. От них требуется знание статистики, машинного обучения и компьютерных наук, чтобы понимать сквозной рабочий процесс и, соответственно, предпринимать действия для достижения конечных результатов.

Разница между Data Scientist и Data Analyst:DA работает с существующими или полученными данными, чтобы предоставить информацию, в то время как DS помогает предсказать будущее или действия, которые необходимо предпринять для получения дальнейших результатов.

Например, DA может сказать, каковы были продажи в прошлые годы и в текущем году и как они растут или сокращаются, тогда как DS сообщит о дальнейших действиях, которые необходимо предпринять, чтобы исправить это.

Инженер по машинному обучению/инженер по искусственному интеллекту: включает развертывание моделей машинного обучения в производстве, масштабирование моделей, поиск удобных для пользователя решений для увеличения прибыли бизнеса.

То же самое можно легко понять на следующей диаграмме.

2. Технологии, над которыми нужно работать

Бизнес-аналитик: социальные навыки, критическое мышление, знание предметной области, Tableau, Power BI, SQL, JIRA, Oracle, Advanced Excel

Аналитик данных: SQL, Python/R, C/C++, Excel, SAS, Power BI, Tableau

Инженер данных: Hadoop, Pig, Hive, Spark, Python/R, Java, ETL, Advanced SQL, HTML, CSS, JavaScript

Ученый по данным: Python/R, SQL, SAS, SPSS, Hadoop, Pig, Hive, машинное обучение, Tableau, Power BI

Инженер AI/ML: концепции AI/ML, Python/R, C/C++, статистика, структуры данных и алгоритмы.

То же самое изображено на схеме следующим образом.

3. Диапазон средней заработной платы (Индия и США):

Средний диапазон заработной платы для различных должностей в Индии и США показан следующим образом для новичков и опытных.

Бизнес-аналитик: Индия: 3,5–17 лакхов в год; США: 60-110 тысяч долларов в год

Аналитик данных: Индия: 4,5–20 лакхов в год; США: 70-132 тыс. $ в год

Инженер данных: Индия: 8–32 лакха в год; США: 90-183 тыс. $ в год

Специалист по обработке и анализу данных: Индия: 8–29 лакхов в год; США: 80-180 тыс. $ в год

Инженер AI/ML: Индия: 5–35 лакхов в год; США: 60-220 тыс. $ в год

Примечание. Этот диапазон зарплат представляет собой среднюю зарплату, полученную от Glassdoor, PayScale и Indeed. От компании к компании могут быть разные предложения.

4. Заключение:

Мы изучили обзор науки о данных, как происходит ежедневное генерирование данных, что такое наука о данных, какие различные рабочие роли она может предложить на основе разных наборов навыков. В соответствии с различными должностными обязанностями, каковы рабочие обязанности, технические знания и диапазон заработной платы. Ссылаясь на это, можно выбрать путь к науке о данных, основываясь на своих навыках и интересах.

Ссылки:

1.https://techjury.net/blog/how-much-data-is-created-every-day/#gref

2. https://www.bernardmarr.com/default.asp?contentID=1438

3. https://www.weforum.org/agenda/2019/04/how-much-data-is-generated-each-day-cf4bddf29f/