Наука о данных — это новое модное слово, которое сегодня правит миром. По сути, это область, которая применяет множество процессов, научных методов и алгоритмов к данным для извлечения проницательных знаний. В основном он обрабатывает данные, доступные в больших объемах и в различных форматах.
Отмечая его важность и охват различных областей работы, это порождает разные рабочие роли и разные возможности. В этой статье можно понять обзор области науки о данных и принять решение о путешествии в науку о данных на основе интересов и навыков.
Этот блог вращается вокруг следующих моментов:
1. Генерация данных и их типы
2.Что такое наука о данных?
3. Различные рабочие роли и их анализ по следующим ключам:
- Роли и обязанности
-Технологии для работы
-Диапазон зарплат (Индия/США)
4. Вывод
1. Генерация данных и их типы
Принимая во внимание цифровой мир, его быстрое техническое развитие и изобилие технологий, позволяющих вести легкий образ жизни, мы генерируем данные объемом 1,145 трлн МБ в день [1]. Эти данные необходимы для анализа в бизнесе или для получения полезной информации, которая способствует социальному или экономическому росту. Мы ежедневно генерируем много данных, используя различные устройства и устройства, такие как использование мобильных устройств для банковских операций, оплаты счетов или покупок, бронирования билетов или серфинга, контроллер переменного тока, Alexa/Siri, смарт-часы, социальные платформы и т. д. Давайте посмотрим на статистика данных генерируется ежедневно.
- Каждую секунду создается пять новых профилей Facebook![2]
- Ежедневно загружается более 300 миллионов фотографий [2]
- Каждую минуту публикуется 510 000 комментариев и обновляется 293 000 статусов [2]
- В среднем сейчас Google обрабатывает более 40 000 поисковых запросов КАЖДУЮ секунду (3,5 миллиарда поисковых запросов в день)![2]
- Более 120 специалистов присоединились к LinkedIn [2]
- Пользователи просматривают 4 146 600 видео на YouTube [2]
- В Twitter отправлено 456 000 твитов [2]
- В WhatsApp отправляется 65 миллиардов сообщений [3]
Эти сгенерированные данные представлены в различных форматах, таких как большие данные, данные с отметками времени, машинные данные, пространственно-временные данные, открытые данные и данные в реальном времени. Эти форматы данных можно разделить на три основные категории:
1.Структурированные данные. Он работает с предопределенной моделью данных и прост в работе. Он сформулирован в табличном формате с отношениями в строках и столбцах. Например, таблицы в СУБД, текстовые/CSV-файлы.
2. Неструктурированные данные. У них нет заранее определенной модели или структурированного способа. Хотя у него будут типы данных (число, число с плавающей запятой, строка или даты), которые можно использовать для понимания данных. Например, аудио/видеофайлы, файлы базы данных No-SQL.
3. Полуструктурированные данные. Это форма структурированных данных, которые не описываются как структурированные данные, но определяются с помощью тегов и маркеров для определения семантических элементов и иерархии данных. данные. Например, файлы JSON, XML.
2. Что такое наука о данных?
Наука о данных — это область, состоящая из трех основных областей: математики, информатики и предметной области. Чтобы работать / анализировать данные различными способами, чтобы прийти к открытию, математика важна для статистического анализа данных, для обработки или очистки данных или для обработки различных форматов данных, необходима компьютерная наука и, в конечном итоге, чтобы прийти к выводу в области знаний с точки зрения бизнеса. необходимо обеспечить платформу для принятия решений. Это легко понять, следуя схеме.
3.Различные должности и их анализ
Из-за междисциплинарного характера науки о данных возникают различные рабочие роли с учетом рабочих обязанностей и знаний. Тем не менее, в основном его можно разделить на следующие рабочие роли:
1.Бизнес-аналитик
2. Аналитик данных
3. Инженер данных
4. Специалист по данным
5. Инженер по машинному обучению/инженер по искусственному интеллекту
Все вышеперечисленные роли имеют свою специализацию и важность на пути от необработанных данных к проницательному обнаружению данных. Давайте углубимся в роли и обязанности, технологии, необходимые для изучения/работы, и средние. зарплата в Индии и США для новичков и опытных в отношении каждой должности, упомянутой выше.
1. Роли и обязанности:
Бизнес-аналитик (BA). Эта роль предполагает наличие глубоких бизнес-знаний и визуализации данных для понимания или работы с очищенными данными для выявления закономерностей в данных.
Аналитик данных (DA): они работают над сбором данных, их анализом и созданием отчетов, чтобы показать полученную информацию заинтересованным сторонам бизнеса для принятия бизнес-решений.
Разница между бизнес-аналитиком и аналитиком данных: BA больше сосредоточен на социальных навыках, критическом мышлении и опыте в предметной области, в то время как DA - на технических знаниях для технического и аналитического представления данных.
Инженер данных. Требуется больше технически подкованных специалистов. Они должны работать с большими данными, очищать/управлять и хранить большие данные, создавать данные в читаемом формате для специалистов по данным или аналитиков данных.
Data Scientist (DS):эти люди занимаются обработкой данных, изучением вариантов использования в бизнесе, созданием моделей данных и получением информации для принятия решений. От них требуется знание статистики, машинного обучения и компьютерных наук, чтобы понимать сквозной рабочий процесс и, соответственно, предпринимать действия для достижения конечных результатов.
Разница между Data Scientist и Data Analyst:DA работает с существующими или полученными данными, чтобы предоставить информацию, в то время как DS помогает предсказать будущее или действия, которые необходимо предпринять для получения дальнейших результатов.
Например, DA может сказать, каковы были продажи в прошлые годы и в текущем году и как они растут или сокращаются, тогда как DS сообщит о дальнейших действиях, которые необходимо предпринять, чтобы исправить это.
Инженер по машинному обучению/инженер по искусственному интеллекту: включает развертывание моделей машинного обучения в производстве, масштабирование моделей, поиск удобных для пользователя решений для увеличения прибыли бизнеса.
То же самое можно легко понять на следующей диаграмме.
2. Технологии, над которыми нужно работать
Бизнес-аналитик: социальные навыки, критическое мышление, знание предметной области, Tableau, Power BI, SQL, JIRA, Oracle, Advanced Excel
Аналитик данных: SQL, Python/R, C/C++, Excel, SAS, Power BI, Tableau
Инженер данных: Hadoop, Pig, Hive, Spark, Python/R, Java, ETL, Advanced SQL, HTML, CSS, JavaScript
Ученый по данным: Python/R, SQL, SAS, SPSS, Hadoop, Pig, Hive, машинное обучение, Tableau, Power BI
Инженер AI/ML: концепции AI/ML, Python/R, C/C++, статистика, структуры данных и алгоритмы.
То же самое изображено на схеме следующим образом.
3. Диапазон средней заработной платы (Индия и США):
Средний диапазон заработной платы для различных должностей в Индии и США показан следующим образом для новичков и опытных.
Бизнес-аналитик: Индия: 3,5–17 лакхов в год; США: 60-110 тысяч долларов в год
Аналитик данных: Индия: 4,5–20 лакхов в год; США: 70-132 тыс. $ в год
Инженер данных: Индия: 8–32 лакха в год; США: 90-183 тыс. $ в год
Специалист по обработке и анализу данных: Индия: 8–29 лакхов в год; США: 80-180 тыс. $ в год
Инженер AI/ML: Индия: 5–35 лакхов в год; США: 60-220 тыс. $ в год
Примечание. Этот диапазон зарплат представляет собой среднюю зарплату, полученную от Glassdoor, PayScale и Indeed. От компании к компании могут быть разные предложения.
4. Заключение:
Мы изучили обзор науки о данных, как происходит ежедневное генерирование данных, что такое наука о данных, какие различные рабочие роли она может предложить на основе разных наборов навыков. В соответствии с различными должностными обязанностями, каковы рабочие обязанности, технические знания и диапазон заработной платы. Ссылаясь на это, можно выбрать путь к науке о данных, основываясь на своих навыках и интересах.
Ссылки:
1.https://techjury.net/blog/how-much-data-is-created-every-day/#gref
2. https://www.bernardmarr.com/default.asp?contentID=1438
3. https://www.weforum.org/agenda/2019/04/how-much-data-is-generated-each-day-cf4bddf29f/