Всем привет!! Меня зовут Анугра Нурхамид, вы можете звать меня уга. Это моя первая статья. Мне очень нравится наука о данных, поэтому я попытаюсь присоединиться к программе по науке о данных на одной платформе в Индонезии. Теперь я закончил свою программу буткемпа. Итак, я хочу рассказать о науке о данных, о том, что они делают, почему они делают и кто это делает. Начнем с введения в науку о данных.
Что такое наука о данных?
"Наука о данных – это концепция, используемая для работы с большими данными, которая включает в себя очистку, подготовку и анализ данных". — simplilearn Шрихари Сасикумара.
Data Scientist собирает много данных из разных источников. После этого они проведут анализ данных, чтобы получить представление и важную информацию для применения к машинному обучению, прогнозному анализу, анализу настроений и всему, что они могут извлечь из данных. В науке о данных не только о «науке», но есть еще много знаний, которые надо усвоить в том числе.
Зачем вам это нужно?
Прежде чем я начну объяснять об этом. Я хочу рассказать о части науки о данных — это бизнес-аналитика, аналитик данных, специалист по данным и инженер по машинному обучению. В чем разница в каждой его части? и зачем это нужно компании?
Бизнес-аналитика
После того, как данные были собраны и организованы инженером данных или администратором базы данных, или, если у компании есть большие данные, вероятно, это сделает инженер больших данных. Зачем вам это нужно? «Используйте данные, чтобы создавать отчеты и информационные панели, чтобы получать ценную информацию из данных, чтобы помогать компании». Что такое метод бизнес-аналитики, анализ данных и представление информации о данных в форме отчетов, информационных панелей и многого другого.
Аналитик данных
Между аналитиком данных и бизнес-аналитикой в целом почти одинаковые вещи, которые они могут делать. Но аналитик данных фокусируется на алгоритмах для определения взаимосвязи между данными, предлагающими идеи. Основное различие между Бизнес-аналитикой и Аналитиком данных заключается в том, что Аналитика обладает возможностями прогнозирования, тогда как BI помогает принимать обоснованные решения на основе анализа прошлых данных.
Специалист по данным
Превосходство специалиста по обработке и анализу данных заключается в том, что он «оценивает потенциальные сценарии будущего, используя продвинутый статистический метод». Некоторые методы, которые могут быть использованы специалистом по данным, включают регрессию, логистическую регрессию, кластеризацию, временные ряды и многие другие. Таким образом, специалист по данным - это больше, чем просто анализ данных и предоставление информации о данных, но они могут проводить прогнозный анализ данных с помощью многих известных им методов.
Инженер по машинному обучению
«Используйте искусственный интеллект для беспрецедентного предсказания поведения». Знания связаны с причинно-следственными описаниями, прогнозами и выводами, полученными из структурированных и неструктурированных данных. Инженер по машинному обучению разработает алгоритмы, чтобы машинам было проще видеть свои собственные программные данные, затем определять содержащиеся в них шаблоны, а после этого тренироваться понимать команду.
Методы, выполняемые инженером по машинному обучению, также могут выполняться специалистом по данным.
- Контролируемое обучение. «При контролируемом обучении вы обучаете машину, используя данные, которые хорошо «помечены». Это означает, что некоторые данные уже помечены правильным ответом». — 99guru.com
- Обучение без учителя. «Обучение без учителя — это метод машинного обучения, при котором вам не нужно контролировать модель. Вместо этого вам нужно позволить модели работать самостоятельно, чтобы обнаружить информацию. В основном это касается «немаркированных» данных». — 99guru.com
- Обучение с подкреплением. "Похоже на контролируемое обучение, но вместо того, чтобы сводить к минимуму потери, можно максимизировать вознаграждение".
Простота доступа к методам, используемым в науке о данных. Вы можете получить доступ ко всем методам в оригинальной документации, таким как scikit Learn, xgboost и многим другим методам и алгоритмам, которые вы хотите использовать для анализа, визуализации или прогнозного анализа.
Кроме того, вы можете легко пройти онлайн-курс по науке о данных. Например, вы можете получить 2 месяца бесплатно в datacamp, а еще одна платформа, посвященная науке о данных, — это udemy, dqlab (на индонезийском языке), udacity и многие другие. Итак, если вас интересует наука о данных, вы можете получить информацию на их веб-сайте.
Это все от меня, простите мой RIP английский, LOL. Я надеюсь, что вы, ребята, можете получить что-то о науке о данных в целом. Не стесняйтесь спрашивать, вы можете связаться со мной или поправить меня, если я ошибаюсь в комментарии к колонке.
Удачного обучения, дружище! Хорошего дня! :)
Источник :
- Директор, статья Datanest Наби Ибрагима
- Статья simplilearn (Об аналитике данных, науке о данных и машинном обучении) Шрихари Сасикумара
- Статья 99guru (Контролируемое и неконтролируемое обучение)