Вы думаете о том, чтобы стать специалистом по данным. Вы осмотрелись и достаточно скоро поняли, что R — один из языков, которые вам нужно выучить. Но что такое Р?

R — это бесплатная программная среда, предназначенная для статистических вычислений и анализа данных, широко используемая статистиками, сборщиками данных и учеными, как в промышленности, так и в научных кругах. Фактически, R является одним из наиболее широко используемых языков для науки о данных, наряду с Python.

Почему R хорош для науки о данных?

R был разработан для статистического анализа, поэтому репертуар статистических тестов, доступных в R, не имеет себе равных. Кроме того, растет число библиотек, которые помогают выполнять различные повседневные задачи по науке о данных, включая i) реализацию алгоритмов машинного обучения, ii) сбор данных (среди прочего, с помощью SQL-запросов или из Интернета), iii) визуализацию данных и iv ) представление результатов.

R используется в качестве предпочтительного языка обработки данных и машинного обучения во многих компаниях, в том числе с громкими именами. И, что еще более интересно, R широко используется в академических кругах для статистического анализа в контексте анализа генома, тестирования на наркотики, секвенирования РНК и многого другого.

Должен ли я изучать R?

Вы должны изучать Python или R для науки о данных, это ваш выбор. Фактически, R лучше справляется с некоторыми задачами, такими как статистический анализ, тогда как Python лучше справляется с другими областями, такими как разработка программного обеспечения. Однако, что бы вы ни решили, если вы вступаете в науку о данных, вы сделаете свою жизнь проще, если будете придерживаться одного языка и хорошо его выучите.

Одна из веских причин начать изучение R для науки о данных заключается в том, что лучшие онлайн-курсы по изучению науки о данных используют R. Поэтому, если вы решите изучать R, эти курсы позволят вам освоить 2 навыка одновременно. Разве это не удивительно? Я подробно расскажу об этих ресурсах позже в этом посте.

Еще одна веская причина начать с изучения R заключается в том, что в Интернете доступно множество ресурсов для изучения R для науки о данных, некоторые из них представляют собой короткие и бесплатные курсы, которые дадут вам представление о том, нравится ли вам это. Обучение использованию языка программирования требует больших затрат времени и большой практики, поэтому, безусловно, это должно быть то, что вам нравится делать, чтобы гарантировать успех.

Чему именно мне нужно научиться?

Очень важно, чтобы вы знали основы R, в том числе, как установить R, как выполнить код R и как выполнять операции с основными структурами данных, такими как векторы, списки, матрицы, факторы и кадры данных. Далее вам необходимо ознакомиться с установкой и использованием библиотек R.

Библиотеки — это специальные пакеты R, которые позволяют выполнять определенные задачи, такие как обработка и очистка данных, визуализация данных и реализация алгоритмов машинного обучения. Среди этих библиотек вы найдете Caret для машинного обучения, dplyr, tidyr, stringr и lubridate для очистки и обработки данных, ggplot2 для визуализации данных, а также Shiny и R Markdown для представления результатов и многие другие.

После того, как вы изучите основы R и использование основных библиотек обработки данных и обработки данных, вы будете готовы приступить к своим собственным проектам по обработке данных. Не так уж и плохо, правда?

Где я могу изучить R тогда?

В этом посте я описываю наиболее широко используемые ресурсы для изучения R для науки о данных. Некоторые из них дадут вам представление о R, а другие позволят вам глубже погрузиться в программирование и науку о данных. Есть курсы, чтобы соответствовать всем временным обязательствам и бюджетам. Я также дам несколько рекомендаций по ресурсам, которые, по моему мнению, работают лучше всего и являются обязательными для любого ученого-самоучки. Давайте начнем…

Отказ от ответственности: мнения, изложенные в статье, являются моими собственными, и я не получаю финансовой компенсации за какие-либо ссылки в этом блоге. Этот блог не содержит партнерских ссылок.

Содержание

Короткие и бесплатные онлайн-курсы

  1. Введение в R (датакемп)
  2. Основы R — Введение в язык программирования R (Udemy)

Комплексные онлайн-курсы

  1. The Analytics Edge, Массачусетский технологический институт (edX)
  2. Специализация Data Science, Университет Джона Хопкинса (Coursera)
  3. R Programming A-Z™: R для науки о данных с реальными упражнениями! (Удеми)

Учебники

  1. R Tutorial по Cyclismo
  2. Введение в R Венеблса и Смита

Книги по программированию R для науки о данных

  1. Практическое программирование на R, Гаррет Гролемунд
  2. R для науки о данных, Хэдли Уикхэм и Гаррет Гролемунд
  3. Программирование R для науки о данных, Роджер Пэн
  4. Исследовательский анализ данных, Роджер Пэн

Другие ресурсы для изучения R

  1. Какие есть хорошие ресурсы для изучения R?
  2. Схема обучения R — пошаговое руководство по изучению науки о данных на R

Короткие и бесплатные онлайн-курсы

В Интернете есть несколько коротких и бесплатных курсов по программированию на R, которые научат вас самым основам программирования на R. На этих курсах вы узнаете, как установить R и R Studio, как выполнять основные операции R и как работать с векторами, матрицами, фреймами данных, факторами и списками. Их обычно называют основами R.

Эти короткие курсы занимают от 2 до 4 часов плюс дополнительное время для выполнения упражнений. С другой стороны, они дадут вам быстрое представление о том, нравится ли вам это. Тем не менее, приложения для науки о данных будут минимальными, и вам обязательно понадобится дополнительный курс, чтобы овладеть языком. Ниже я выделяю наиболее рекомендуемые короткие и бесплатные курсы R, доступные в Интернете.

1. Введение в R (Datacamp)

Introduction to R на DataCamp — это вводный курс по R, идеально подходящий для начинающих, не имеющих опыта программирования. Он обучает самым основам R, включая факторы, списки и фреймы данных, поэтому проведет вас через самые первые шаги программирования в R.

Введение в R занимает 4 часа и содержит 62 практических упражнения, которые помогут вам выучить язык. Этот базовый курс бесплатный, однако более продвинутые курсы в Datacamp требуют оплаты.

2. Основы R — введение в язык программирования R (Udemy)

Основы R — это вводный курс для начинающих, доступный в Udemy. Основы R обучает первым шагам в кодировании R и использованию структур данных, а также знакомит с некоторыми библиотеками для визуализации данных, такими как решетка, а также текстовая аналитика и машинная обработка. обучение. Тем не менее, эти лекции очень вводные, поэтому держите свои ожидания на должном уровне. Основы R подойдет вам, если вы хотите понять, что такое R и наука о данных. Основы R получил отличные отзывы от почти тысячи студентов, так что это, безусловно, вариант для ознакомления.

Комплексные онлайн-курсы

В дополнение к коротким вводным курсам по программированию на R существуют очень хорошие комплексные онлайн-курсы для изучения программирования на R и науки о данных. Эти курсы длятся несколько недель или месяцев, в зависимости от того, сколько времени вы можете потратить на выполнение упражнений.

Эти всеобъемлющие онлайн-курсы познакомят вас со многими аспектами науки о данных, включая сбор данных, очистку данных, анализ и визуализацию данных, а также создание моделей машинного обучения, и все это с использованием R в качестве языка программирования. Некоторые курсы дадут вам хорошее представление об этих концепциях, другие позволят глубже погрузиться в содержание.

Лучший выбор для полных новичков

1. Аналитический край, Массачусетский технологический институт (edX)

Analytics Edge на edX, разработанный и преподаваемый инструкторами из Массачусетского технологического института, является лучшим выбором в качестве отправной точки для изучения R для науки о данных, особенно если у вас мало или совсем нет опыта работы с языками программирования. . Курс научит вас использовать R для анализа данных и машинного обучения, поскольку он исследует различные данные из реальных бизнес-сценариев. Вы научитесь использовать R и решать проблемы науки о данных за один раз.

Курс в основном ориентирован на машинное обучение и статистику, обучая вас выполнять базовые статистические расчеты, а также визуализировать данные и создавать модели машинного обучения, и все это с помощью R. Это даст вам прочную основу для решения ваших задач. собственные проекты по науке о данных. Однако Analytics Edge немного не соответствует принципам программирования и рекомендациям. Не волнуйтесь, вы можете забрать это позже.

The Analytics Edge был заархивирован в прошлый раз, когда я проверял, что означает, что он больше не будет запускаться ежегодно, но материал по-прежнему должен быть доступен.

Лучшая рекомендация ✔️

2. Специализация по науке о данных, Университет Джона Хопкинса (Coursera)

Специализация по науке о данных на Coursera — это комплексная специализация, разработанная и преподаваемая профессорами Университета Джона Хопкинса. Специализация состоит из 9 курсов, которые охватывают программирование R, сбор и очистку данных, исследование данных, научный подход к анализу данных и разработке проектов, статистику, машинное обучение и визуализацию данных. Он очень исчерпывающий по своему содержанию и охватывает все основные аспекты науки о данных, все они выполняются с использованием R.

Специализация по науке о данных была разработана, чтобы дать вам комплексное представление о разработке проекта по науке о данных, от начала и планирования до выполнения и распространения результатов. Он также дает вам обзор инструментов, необходимых для науки о данных, которые, конечно же, представляют собой программирование R, а также использование Git для контроля версий кода, SQL и веб-очистки среди прочего.

Первый курс специализации, Инструментарий специалиста по данным, предназначен для того, чтобы познакомить вас с инструментами, программным обеспечением и знаниями, необходимыми для науки о данных. Во втором курсе, Программирование на R, вы изучите основы программирования на R, включая управление потоком с помощью циклов for, if и while, функций и как выполнять операции с использованием структур данных, таких как списки, векторы. , кадры данных и матрицы среди прочего.

В третьем курсе, Получение и очистка данных, вы узнаете, как собирать данные из различных источников, таких как базы данных или Интернет. Вы также узнаете, как нарезать, очищать и манипулировать этими данными с помощью наиболее широко используемых библиотек R для манипулирования данными.

Следующие курсы познакомят вас с научным способом представления и разработки проекта по науке о данных. Вы узнаете, как анализировать и представлять данные в курсе Исследовательский анализ данных и как документировать научный проект в курсе Воспроизводимое исследование, а также многое другое. аспекты статистики, регрессии и некоторые практические реализации машинного обучения в курсах Статистический вывод, Модели регрессии и Практическое машинное обучение . В рамках этих курсов вы погрузитесь в построение графиков данных с использованием различных библиотек R для визуализации, а затем вы изучите различные методы представления данных, статистического моделирования и машинного обучения, включая уменьшение размерности.

Специализация Наука о данных больше ориентирована на науку и исследования, включая несколько примеров из научных тем, над которыми регулярно работают профессора, таких как загрязнение воздуха и анализ РНК. Вы получите хорошее представление о том, как ученые собираются отвечать на конкретные вопросы, строить гипотезы и представлять свои данные. Специализация по науке о данных меньше стесняется математических и статистических понятий, чем любой другой курс, доступный онлайн. Он включает формулы и математические объяснения моделей машинного обучения, а также теорию распределения вероятностей. Однако это более глубокое погружение поможет вам стать более изобретательным при построении и оптимизации алгоритмов машинного обучения. Вот почему я больше всего рекомендую эту специализацию для изучения R для науки о данных.

Однако это более глубокое погружение поможет вам стать более изобретательным при построении и оптимизации алгоритмов машинного обучения. Вот почему я больше всего рекомендую эту специализацию для изучения R для науки о данных.

Профессора специализации по науке о данных также создали сопутствующие книги, которые вы можете получить в дополнение или в качестве альтернативы, если предпочитаете читать, а не смотреть видео. Я освещаю эти книги позже в почте.

Вы можете пройти прослушивание всех курсов Специализация по науке о данных бесплатно или заплатить, если хотите получить сертификат.

3. R ​​Programming A-Z™: R для науки о данных с реальными упражнениями! (Удеми)

R Programming A-Z™: R для науки о данных с реальными упражнениями! — это обширный курс, предназначенный для начинающих, с минимальными знаниями R и статистикой или вовсе без них. Курс фокусируется на обучении R на практике и упражнениях, он расширяется шаг за шагом и включает в себя несколько примеров из реальной жизни. С R Programming A-Z™ вы изучите основы R, такие как общие операции с векторами, списками, матрицами и фреймами данных, а курс также включает раздел по визуализации данных.

R Programming A-Z™ — это более полный набор для начала работы с R по сравнению с более короткими курсами, упомянутыми ранее. Однако он не такой тщательный и обширный, как специализация по науке о данных от Coursera, с точки зрения тем науки о данных, и он также не охватывает машинное обучение. Курс является хорошим вариантом для быстрого начала программирования на R, если это то, что вам нужно. И тогда вы можете изучить темы машинного обучения на другом ресурсе.

Курсы на Udemy не бесплатны, однако Udemy и инструкторы регулярно выпускают купоны со скидкой.

Учебники

1. Учебник R по Cyclismo

Учебник по R на Cyclismo — это очень простое онлайн-руководство, которое охватывает основы программирования R, включая операции с факторами, списками и фреймами данных, а также матрицами. также в определенной степени охватит манипулирование данными, статистику и машинное обучение. Этот учебник, возможно, хорош для первого погружения в программирование R, чтобы познакомиться с синтаксисом R и стилем программирования. R Tutorial по Cyclismo был разработан учащимися, которые плохо знакомы с R, но имеют некоторые знания в области вычислительной техники. ​

2. Введение в R Венеблеса и Смита

Введение в R Венеблса и Смита — это бесплатная онлайн-книга, рекомендованная Quick-R, очень популярным веб-сайтом для пользователей R. Содержание книги исчерпывающее. Он охватывает основы R, такие как факторы, списки и матрицы, а также распределения вероятностей, манипулирование данными, управление потоком (циклы и условия), а также способы использования и создания пакетов R. Эта книга хорошо подходит как для начинающих, так и для тех, кто немного знаком с R, поскольку ее содержание довольно исчерпывающее. Введение в R является лучшей альтернативой онлайн-курсам, а также имеет открытый исходный код.

Книги по программированию R для науки о данных

Существует ряд книг, из которых вы можете изучить программирование R для науки о данных, которые были написаны ведущими учеными, научными исследователями и самими разработчиками пакетов R. Кроме того, большинство из них доступны бесплатно, поэтому, если вы хотите изучить R для науки о данных, вы, безусловно, находитесь в отличном месте. В Интернете уже есть очень хорошие обзоры этих книг, поэтому здесь я опишу несколько книг, а затем указать вам правильное направление, чтобы получить больше информации, если это необходимо. Давайте погрузимся…

1. Практическое программирование с помощью R, Гаррет Гролемунд

Практическое программирование на R научит вас программировать на R, как следует из названия, на практических примерах. Она отлично подходит для непрограммистов, так как книга была разработана, чтобы обеспечить дружественное введение в язык R. Книга охватывает основы R, включая работу со структурами данных и объектами R, а также способы управления потоком.

2. R для науки о данных, Хэдли Уикхэм и Гаррет Гролемунд.

R для науки о данных — это продолжение книги Практическое программирование с помощью R. В ней рассказывается, как анализировать и обрабатывать данные с помощью пакетов R, созданных автором Хэдли Уикхэмом.

3. Программирование R для науки о данных, Роджер Пэн

Программирование на R для науки о данных — это книга, сопровождающая курс R-программирования специализации Наука о данных на Coursera. Курс охватывает основы программирования R и некоторые дополнительные темы, такие как регулярные выражения и отладка, которые также полезны для проектов по науке о данных.

4. Исследовательский анализ данных, Роджер Пэн.

Исследовательский анализ данных — это еще одна книга, сопровождающая специализацию по науке о данных на Coursera и посвященная анализу данных, манипулированию и визуализации многомерных данных.

Другие обзоры бесплатных книг для изучения R:

Другие блоги с ресурсами для изучения R