1. Определение из Википедии:

Наука о данных — это междисциплинарная область, в которой используются научные методы, процессы, алгоритмы и системы для извлечения знаний и идей из данных в различных формах, как структурированных, так и неструктурированных,[1][2] аналогично интеллектуальному анализу данных.

Наука о данных — это «концепция объединения статистики, анализа данных, машинного обучения и связанных с ними методов», чтобы «понимать и анализировать реальные явления» с помощью данных. В нем используются методы и теории, взятые из многих областей в контексте математики, статистики, информатики и компьютерных наук.

10 шагов, чтобы стать профессиональным специалистом по данным:

1. Развивайте навыки алгебры, статистики и машинного обучения.

2. Научитесь любить (большие) данные

3. Получите глубокие знания о базах данных

4. Научитесь программировать

5. Обработка основных данных, визуализация и отчетность

6. Работайте над реальными проектами

7. Ищите знания повсюду

8. Коммуникативные навыки

9. Соревнуйтесь

10. Будьте в курсе событий сообщества специалистов по данным

Понимать данные. Данные бесполезны и могут (и должны) вводить в заблуждение без контекста. Данным нужна история, чтобы рассказать историю. Данные подобны цвету, которому нужна поверхность, чтобы даже доказать свое существование, как, например, красный цвет не может доказать свое существование без поверхности, мы видим красную машину или красный шарф, красный галстук, красные туфли или что-то красное, точно так же данные должны быть связаны с их окружением, контекстом, методами, способами и всем жизненным циклом, в котором они рождаются, генерируются, используются, модифицируются, исполняются и заканчиваются.

Мне еще предстоит найти «ученого данных», который мог бы спросить меня о «данных», не упоминая такие технологии, как Hadoop, NoSQL, Tableau или других сложных поставщиков и модные словечки. Вы должны иметь близкие отношения с вашими данными; Вы хотели бы понять это изнутри. Спросить кого-то другого об аномалиях в «ваших» данных достаточно, чтобы спросить свою жену, как она забеременела. Одним из явных преимуществ, которые у нас были в наших отношениях с ООН и, следовательно, в программном обеспечении для защиты школ от взрывов, является наша власть над исходными данными, в то время как мир говорит об этом, используя статистические диаграммы и цифры, мы дома, кто испытал это на себе. , живите этим в нашей повседневной жизни, важность, детали и оценку этих данных, которые у нас есть, нельзя найти больше нигде. Мы делаем то же самое с другими нашими проектами и клиентами.

Понимание специалиста по данным. К сожалению, одним из самых запутанных и неправильно используемых слов в области наук о данных является сам термин «ученый по данным». Кто-то связывает его с мистическим оракулом, который знал бы все на свете, а кто-то сокращал бы его вплоть до эксперта по статистике, для немногих это кто-то, кто знаком с Hadoop и NoSQL, а для других это кто-то, кто может проводить A/B-тестирование. и может использовать так много математических и статистических терминов, которые было бы трудно понять на руководящих собраниях. Для одних это панели визуализации, а для других — бесконечный процесс ETL.

Для меня Data Scientist — это тот, кто разбирается в науке меньше, чем те, кто ее создает, и немногим меньше в данных, чем те, кто их генерирует, но точно знает, как эти двое работают вместе. Хороший специалист по данным — это тот, кто знает, что доступно «вне коробки» и с кем он должен связаться, нанять или какие технологии ему нужно развернуть, чтобы выполнить работу, тот, кто может связать бизнес-цели с витринами данных и кто может просто связать точки от прибыли бизнеса до человеческого поведения и от сбора данных до потраченных долларов

Для тех, кто рассматривает возможность самообучения, будет несколько путей обучения, вы будете следовать приведенному ниже или разработаете свой собственный график.

Но важной психологической предпосылкой является реальный интерес к просмотру данных, их пониманию и работе с ними.

С точки зрения знаний, вам нужно начать учиться программировать, если у вас нет предыдущего опыта.

На первом этапе: изучите программирование (R или Python), станьте экспертом.

Я сделал эту БЕСПЛАТНУЮ электронную книгу

Последняя электронная книга по языку программирования R для начинающих

или вы можете посмотреть это видео на Youtube

[Наука о данных] | Как определить пропущенные значения и выбросы с помощью R | Эдуоникс

Второй шаг: получить знания до промежуточного уровня статистики, повторно изучить студенческую алгебру, алгебру, понять теоретические основы, логику и приложения алгоритмов машинного обучения.

Третий шаг. Работайте с независимыми проектами, вы будете получать наборы информации с таких платформ, как Kaggle. Попробуйте реализовать свое обучение шаг за шагом, решая задачи этих проектов.

мое предложение - курс начального уровня

Введение в R для науки о данных | Учебное пособие по науке о данных

но вы найдете лучший путь, как только начнете учиться, делая