Учебник по науке о данных для начинающих - изучайте науку о данных с нуля!

Хотите начать свою карьеру в качестве специалиста по данным, но не знаете, с чего начать? Вы находитесь в нужном месте! В этой статье о Data Science Tutorial мы подробно обсудим концепции, связанные с наукой о данных.

В этой статье будут рассмотрены следующие темы:

Почему наука о данных?
Что такое наука о данных?
Кто такой специалист по данным?
Тенденции работы
Как решить проблему в Data Science?
Компоненты Data Science
Должности специалиста по данным

Почему наука о данных?

Было сказано, что специалист по анализу данных - «самая сексуальная работа 21 века». Почему? Потому что последние несколько лет компании хранят свои данные. И это, сделанное каждой компанией, внезапно привело к взрывному росту объемов данных. Сегодня данных стало больше всего.

Но что вы будете делать с этими данными? Давайте разберемся в этом на примере:

Допустим, у вас есть компания, которая производит мобильные телефоны. Вы выпустили свой первый продукт, и он стал хитом. У каждой технологии есть жизнь, верно? Итак, теперь пришло время придумать что-то новое. Но вы не знаете, что нужно усовершенствовать, чтобы оправдать ожидания пользователей, которые с нетерпением ждут вашего следующего релиза?

Кто-то в вашей компании предлагает использовать отзывы пользователей и выбирать то, что, по нашему мнению, пользователи ожидают в следующем выпуске.

Приходя в Data Science, вы применяете различные методы интеллектуального анализа данных, такие как анализ настроений и т. Д., И получаете желаемые результаты.

И не только это: вы можете принимать более обоснованные решения, вы можете сократить свои производственные затраты, предлагая эффективные способы и давая своим клиентам то, что они на самом деле хотят!

Таким образом, наука о данных может получить бесчисленные преимущества, и поэтому для вашей компании стало абсолютно необходимо иметь группу специалистов по науке о данных. Подобные требования привели к тому, что сегодня тема «Data Science» стала предметом обсуждения, и поэтому я пишу для вас эту статью о Data Science Tutorial. :)

Что такое наука о данных?

Термин Data Science появился недавно с развитием математической статистики и анализа данных. Путешествие было потрясающим, мы так много сделали сегодня в области науки о данных.

В ближайшие несколько лет мы сможем предсказывать будущее, как утверждают исследователи из Массачусетского технологического института. Благодаря своим потрясающим исследованиям они уже достигли важной вехи в предсказании будущего. Теперь они могут предсказать, что произойдет в следующей сцене фильма, с помощью своей машины! Как? Что ж, на данный момент это может быть немного сложно для вас понять, но не волнуйтесь к концу этого блога, у вас также будет ответ на этот вопрос.

Возвращаясь к прошлому, мы говорили о Data Science, она также известна как наука, управляемая данными, которая использует научные методы, процессы и системы для извлечения знаний или идей из данных в различных формах, то есть структурированных или неструктурированных.

Что это за методы и процессы, мы собираемся обсудить сегодня в этом учебном пособии по науке о данных.

Забегая вперед, кто занимается всем этим мозговым штурмом или кто занимается наукой о данных? Специалист по данным.

Кто такой специалист по данным?

Как вы можете видеть на изображении, специалист по данным - мастер на все руки! Он должен хорошо разбираться в математике, работать в сфере бизнеса, а также иметь отличные навыки в области компьютерных наук. Напугана? Не будет. Хотя вам нужно хорошо разбираться во всех этих областях, но даже если это не так, вы не одиноки!

Не существует такого понятия, как «законченный специалист по данным». Если говорить о работе в корпоративной среде, то работа распределяется между командами, причем каждая команда имеет свой опыт. Но дело в том, что вы должны владеть хотя бы одной из этих областей. Кроме того, даже если эти навыки для вас в новинку, расслабьтесь! Это может занять время, но эти навыки можно развить, и поверьте мне, это будет стоить того времени, которое вы потратите. Почему? Что ж, давайте посмотрим на тенденции в сфере вакансий.

Тенденции работы специалистов по данным

График говорит сам за себя: для специалиста по обработке данных не только много вакансий, но и хорошо оплачивается! И нет, наш блог не будет касаться цифр зарплат, иди в Google!

Что ж, теперь мы знаем, что изучение науки о данных действительно имеет смысл не только потому, что это очень полезно, но и потому, что в ближайшем будущем у вас будет отличная карьера в этой области.

Давайте начнем наше путешествие в изучении науки о данных прямо сейчас и начнем со следующей темы, то есть как решить проблему в науке о данных.

Как решить проблему в Data Science?

А теперь давайте обсудим, как подойти к проблеме и решить ее с помощью науки о данных. Проблемы в области науки о данных решаются с помощью алгоритмов. Но самое главное, чтобы судить, какой алгоритм использовать и когда его использовать?

По сути, существует 5 типов проблем, с которыми вы можете столкнуться в науке о данных.

Давайте рассмотрим каждый из этих вопросов и связанные с ним алгоритмы один за другим:

Проблема 1

Это А или Б?

Под этим вопросом мы обращаемся к проблемам, на которые есть категорический ответ, так как в задачах, имеющих фиксированное решение, ответ может быть либо да, либо нет, 1 или 0, интересно, может быть или не интересно.

Например:

В. Что вы будете пить, чай или кофе?

Здесь вы не можете сказать, что хотите кокаин! Поскольку в вопросе предлагается только чай или кофе, и, следовательно, вы можете ответить только на один из них.

Когда у нас есть только два типа ответов, то есть да или нет, 1 или 0, это называется 2 - классификация. С более чем двумя вариантами она называется мультиклассовой классификацией.

В заключение, всякий раз, когда вы сталкиваетесь с вопросами, ответ на которые категоричен, в Data Science вы будете решать эти проблемы, используя алгоритмы классификации.

Следующая проблема в этой статье, с которой вы можете столкнуться, может быть примерно так, как показано ниже.

Проблема 2

Это странно?

Подобные вопросы относятся к шаблонам и могут быть решены с помощью алгоритмов обнаружения аномалий.

Например:

Попробуйте связать проблему «это странно?» к этой диаграмме,

Что странного в приведенном выше шаблоне? Красный парень, не так ли?

Всякий раз, когда в шаблоне есть разрыв, алгоритм отмечает это конкретное событие, чтобы мы могли его просмотреть. Реальное применение этого алгоритма было реализовано компаниями, выпускающими кредитные карты, при этом любая необычная транзакция пользователя помечается для проверки. Следовательно, обеспечение безопасности и сокращение человеческих усилий по слежке.

Не бойтесь, давайте рассмотрим следующую задачу в этом руководстве по науке о данных, она связана с математикой!

Проблема 3

Сколько или сколько?

Тем из вас, кто не любит математику, вздохните с облегчением! Алгоритмы регрессии здесь!

Итак, всякий раз, когда возникает проблема, которая может требовать цифр или числовых значений, мы решаем ее с помощью алгоритмов регрессии.

Например:

Какая будет температура завтра?

Поскольку мы ожидаем числового значения в ответ на эту проблему, мы решим ее с помощью алгоритмов регрессии.

Продолжая изучение этого руководства по науке о данных, давайте обсудим следующий алгоритм.

Проблема 4

Как это организовано?

Допустим, у вас есть данные, но вы не знаете, как их понять. Отсюда вопрос, как это организовано?

Что ж, вы можете решить это с помощью алгоритмов кластеризации. Как они решают эти проблемы? Посмотрим:

Алгоритмы кластеризации группируют данные по общим характеристикам. Например, на приведенной выше диаграмме точки организованы по цветам. Точно так же, будь то любые данные, алгоритмы кластеризации пытаются понять, что общего между ними, и, следовательно, «кластеризируют» их вместе.

Следующая и последняя проблема в этом руководстве по науке о данных, с которой вы можете столкнуться, описана ниже.

Проблема 5

Что мне делать дальше?

Когда вы сталкиваетесь с проблемой, когда ваш компьютер должен принять решение на основе проведенного вами обучения, он задействует алгоритмы подкрепления.

Например:

Ваша система контроля температуры, когда она должна решить, должна ли она понижать температуру в помещении или повышать ее.

Как работают эти алгоритмы?

Эти алгоритмы основаны на психологии человека. Нам нравится, когда нас ценят, верно? Компьютеры реализуют эти алгоритмы и ожидают, что их оценят по достоинству. Как? Посмотрим.

Вместо того, чтобы учить компьютер, что делать, вы позволяете ему решать, что делать, и в конце этого действия вы даете положительный или отрицательный отзыв. Следовательно, вместо того, чтобы определять, что правильно и что неправильно в вашей системе, вы позволяете своей системе «решать», что делать, и, в конце концов, даете обратную связь.

Это как дрессировать вашу собаку. Вы не можете контролировать то, что делает ваша собака, верно? Но вы можете ругать его, когда он поступает неправильно. Точно так же можно похлопать его по спине, когда он сделает то, что от него ожидается.

Давайте применим это понимание к приведенному выше примеру. Представьте, что вы тренируете систему контроля температуры, поэтому всякий раз, когда ответ «нет». Если количество людей в комнате увеличивается, система должна принять меры. Либо понизьте температуру, либо увеличьте ее. Поскольку наша система ничего не понимает, она принимает случайное решение, допустим, повышает температуру. Поэтому вы оставляете отрицательный отзыв. Благодаря этому компьютер понимает, что когда в комнате увеличивается количество людей, никогда не повышать температуру.

Точно так же вы должны дать обратную связь по другим действиям. С каждой обратной связью ваша система изучает и, следовательно, становится более точной в своем следующем решении, этот тип обучения называется обучением с подкреплением.

Теперь алгоритмы, которые мы изучили выше в этом учебном пособии по науке о данных, включают обычную «практику обучения». Мы заставляем машину учиться правильно?

Что такое машинное обучение?

Это тип искусственного интеллекта, который позволяет компьютерам учиться самостоятельно, то есть без явного программирования. С помощью машинного обучения машины могут обновлять свой собственный код всякий раз, когда они сталкиваются с новой ситуацией.

Завершая эту статью, мы теперь знаем, что наука о данных опирается на машинное обучение и его алгоритмы для его анализа. Как мы делаем анализ, где мы это делаем. В Data Science также есть некоторые компоненты, которые помогают нам решать все эти вопросы.

Перед этим позвольте мне ответить, как MIT может предсказывать будущее, потому что я думаю, что вы, ребята, могли бы объяснить это сейчас. Итак, исследователи из Массачусетского технологического института обучили свою модель с помощью фильмов, а компьютеры узнали, как люди реагируют или как они действуют, прежде чем совершить действие.

Например, когда вы собираетесь пожать кому-то руку, вы вынимаете руку из кармана или, возможно, опираетесь на этого человека. По сути, ко всему, что мы делаем, прилагается «предварительное действие». Этим «предварительным действиям» обучался компьютер с помощью фильмов. И, просматривая все больше и больше фильмов, их компьютеры могли предсказать, каким может быть следующее действие персонажа.

Легко, правда? Позвольте мне задать вам еще один вопрос в этой статье! Какой алгоритм машинного обучения должен был быть реализован в этом?

Компоненты Data Science

1. Наборы данных

Что вы будете анализировать? Данные, правда? Вам нужно много данных, которые можно анализировать, эти данные передаются в ваши алгоритмы или аналитические инструменты. Вы получаете эти данные из различных исследований, проведенных в прошлом.

2. R Studio

R - это язык программирования с открытым исходным кодом и программная среда для статистических вычислений и графики, поддерживаемая R Foundation. Язык R используется в среде IDE под названием R Studio.

Почему это используется?

Язык программирования и статистики

Помимо использования в качестве статистического языка, он также может использоваться в качестве языка программирования для аналитических целей.

Анализ и визуализация данных

Помимо того, что R является одним из самых распространенных инструментов аналитики, он также является одним из самых популярных инструментов, используемых для визуализации данных.

Просто и легко учиться

R - это простой и легкий в освоении, чтении и написании

Бесплатно и с открытым исходным кодом

R является примером FLOSS (Free / Libre and Open Source Software), что означает, что можно свободно распространять копии этого программного обеспечения, читать его исходный код, изменять его и т. Д.

R Studio было достаточно для анализа, пока наши наборы данных не стали огромными, но в то же время неструктурированными. Этот тип данных получил название Big Data.

3. Большие данные

Большие данные - это термин для набора наборов данных, настолько больших и сложных, что их становится трудно обрабатывать с помощью имеющихся инструментов управления базами данных или традиционных приложений для обработки данных.

Теперь, чтобы приручить эти данные, нам пришлось придумать инструмент, потому что никакое традиционное программное обеспечение не могло обрабатывать такие данные, и поэтому мы придумали Hadoop.

4. Hadoop

Hadoop - это платформа, которая помогает нам хранить и обрабатывать большие наборы данных параллельно и распределенно.

Давайте сосредоточимся на части Hadoop, связанной с хранением и обработкой.

Магазин

Часть хранилища в Hadoop обрабатывается HDFS, то есть распределенной файловой системой Hadoop. Он обеспечивает высокую доступность в распределенной экосистеме. Он работает следующим образом: он разбивает входящую информацию на фрагменты и распределяет их по разным узлам в кластере, обеспечивая распределенное хранилище.

Процесс

MapReduce - это сердце обработки Hadoop. Алгоритмы выполняют две важные задачи: отображение и сокращение. Картографы разбивают задачу на более мелкие задачи, которые обрабатываются параллельно. После того, как все картографы выполняют свою долю работы, они объединяют свои результаты, а затем эти результаты сокращаются до более простого значения с помощью процесса Reduce.

Если мы используем Hadoop в качестве хранилища в Data Science, становится сложно обрабатывать ввод с помощью R Studio из-за его неспособности хорошо работать в распределенной среде, поэтому у нас есть Spark R.

5. Spark R

Это пакет R, который обеспечивает легкий способ использования Apache Spark с R. Почему вы будете использовать его поверх традиционных приложений R? Потому что он обеспечивает реализацию распределенного фрейма данных, которая поддерживает такие операции, как выбор, фильтрация, агрегирование и т. Д., Но с большими наборами данных.

Сделайте передышку сейчас! Мы закончили техническую часть этой статьи, давайте теперь посмотрим на нее с точки зрения вашей работы. Я думаю, вы бы уже погуглили о зарплате специалиста по данным, но все же давайте обсудим рабочие роли, которые доступны вам как специалисту по данным.

Должности специалиста по данным

Вот некоторые из наиболее известных должностей Data Scientist:

Специалист по данным
Инженер по данным
Архитектор данных
Администратор данных
Аналитик данных
Бизнес-аналитик
Менеджер данных / аналитики
Менеджер по бизнес-аналитике

На диаграмме Payscale.com в этом Учебном пособии по науке о данных ниже показана средняя заработная плата специалистов по анализу данных с разбивкой по профессиям в США и Индии.

Пришло время повысить квалификацию в области науки о данных и аналитики больших данных, чтобы воспользоваться открывающимися на вашем пути карьерными возможностями в области науки о данных. На этом мы подошли к концу учебной статьи по Data Science. Я надеюсь, что эта статья была для вас информативной и принесла вам пользу.

Если вы хотите ознакомиться с другими статьями о самых популярных технологиях на рынке, таких как Python, DevOps, Ethical Hacking, посетите официальный сайт Edureka.

Обязательно обратите внимание на другие статьи в этой серии, которые объяснят различные другие аспекты Data Science.

1. Машинное обучение в R для начинающих

2. Математика и статистика для науки о данных

3. Линейная регрессия в R

4. Алгоритмы машинного обучения

5. Логистическая регрессия в R

6. Алгоритмы классификации

7. Случайный лес в R

8. Дерево решений в R

9. Введение в машинное обучение

10. Наивный Байес в R

11. Статистика и вероятность

12. Как создать идеальное дерево решений?

13. 10 главных мифов о роли специалистов по данным

14. Лучшие проекты в области науки о данных

15. Data Analyst vs Data Engineer vs Data Scientist

16. Типы искусственного интеллекта

17. R против Python

18. Искусственный интеллект против машинного обучения против глубокого обучения

19. Проекты машинного обучения

20. Интервью с аналитиком данных: вопросы и ответы

21. Инструменты для анализа данных и машинного обучения для непрограммистов

22. 10 лучших фреймворков машинного обучения

23. Статистика машинного обучения

24. Вопросы и ответы на собеседовании по машинному обучению

25. Алгоритм поиска в ширину

26. Линейный дискриминантный анализ в R

27. Предпосылки для машинного обучения

28. Интерактивные веб-приложения с использованием R Shiny

29. 10 лучших книг по машинному обучению

30. Обучение без учителя

31.1 0 лучших книг по науке о данных

32. Обучение с учителем

Первоначально опубликовано на www.edureka.co 5 июня 2017 г.

Учебник по науке о данных для начинающих - изучайте науку о данных с нуля!

Почему наука о данных?

Что такое наука о данных?

Кто такой специалист по данным?

Тенденции работы специалистов по данным

Как решить проблему в Data Science?

Проблема 1

Проблема 2

Проблема 3

Проблема 4

Проблема 5

Что такое машинное обучение?

Компоненты Data Science

1. Наборы данных

2. R Studio

3. Большие данные

4. Hadoop

5. Spark R

Должности специалиста по данным

Вопросы по теме