Введение в R

R — это язык программирования с открытым исходным кодом, который был разработан как инструмент для статистического анализа. Он предоставляет множество аналитических инструментов и методов, а также графическое моделирование. R используется аналитиками данных и статистиками для сбора данных (поиска закономерностей в данных) и представления своих результатов.

R — это интерпретируемый язык, в отличие от объектно-ориентированного языка (например, Java) или предметно-ориентированного языка (например, SQL). Это означает, что его не нужно компилировать перед запуском (вспомните PowerShell).

История Р

R был создан Россом Ихакой и Робертом Джентльменом, двумя профессорами статистики из Новой Зеландии. Разработка R началась в начале 90-х годов, а бета-версия была выпущена в 2000 году. R основан на более старом языке статистического программирования, разработанном в Bell Labs в 1970-х годах под названием S, и R считается духовным преемником S. Таким образом, , большая часть S-кода может использоваться в R.

Является ли R популярным?

R очень популярен среди аналитиков данных и является одним из основных продуктов в этой области. Это появляется как требование в объявлениях о работе по анализу данных о справедливом количестве. Есть несколько разных причин популярности R, поскольку причины, по которым люди используют его, зависят от их конкретных потребностей.

Одной из основных причин популярности R являются графические и графические возможности. Это упрощает для аналитиков представление своих выводов и позволяет людям, не являющимся аналитиками, быстро понять данные и то, что они, кажется, говорят.

Другая причина заключается в том, что R был специально разработан для обработки больших объемов данных. Это делает его идеальным в современном мире, где у нас есть возможность генерировать и хранить большие объемы данных практически о чем угодно.

Однако, на мой взгляд, самая большая причина популярности R заключается в том, что он имеет открытый исходный код (то есть бесплатный). Это делает его более привлекательным, чем любые платные альтернативы, и делает его подходящим выбором как для бизнеса, так и для энтузиастов. Это также означает, что существует значительное сообщество, готовое ответить на любые ваши вопросы.

Однако, поскольку R был создан статистиками, у него есть кривая обучения, которая привела к тому, что Python стал самым популярным языком для анализа данных, поскольку его намного легче понять людям, уже знакомым с программированием. Поскольку Python — это язык общего назначения, а не специально предназначенный для анализа данных, более широкий круг людей может понять, как заставить его работать. Однако это не означает, что один лучше другого, поскольку оба языка имеют свои преимущества и определенные области, в которых они преуспевают. Python больше используется для машинного обучения при анализе данных, а R — для статистики. Лучшее, что вы можете сделать, если хотите заняться аналитикой данных, — это изучить и то, и другое.

Почему вы должны изучать R

В 2004 году флешка San Disk на 256 МБ стоила около 50–60 долларов США. В 2017 году вы могли найти USB-накопитель на 256 ГБ примерно по той же цене. Через несколько лет мы, вероятно, увидим USB-накопитель емкостью 1 ТБ по довольно низкой цене. Цифровая память становится все дешевле и дешевле, а компьютеры становятся все умнее и умнее, что позволяет нам измерять и хранить огромные объемы данных.

Хотя разница в размере и стоимости флэш-накопителей впечатляет, она меркнет по сравнению с технологиями корпоративного уровня, которые используются в крупных компаниях. Это означает, что они имеют доступ к чрезвычайно большим объемам данных и нуждаются в людях, чтобы разобраться в них, поскольку данные сами по себе довольно бесполезны. Это сделало аналитику данных быстро развивающейся отраслью. Это одна из основных причин, по которой люди должны изучать R; это полезный инструмент в вашем арсенале в мире, который постоянно генерирует данные.

Начиная

Как я упоминал ранее, R был создан статистиками и специально предназначен для статистиков и инженеров-статистиков. Это дает R крутую начальную кривую обучения, однако, как только вы преодолеете это, это может упростить многие сложные вещи.

Первое, что нужно сделать, это перейти на веб-сайт проектов R и загрузить R. Затем вам следует загрузить R Studio с веб-сайта R Studio. R Studio — это интегрированная среда разработки специально для R, которая предоставляет графический интерфейс вместо командной строки, чтобы вы лучше понимали, что вы на самом деле делаете.

Шаг третий — Пост в блоге Пола ван дер Лакена о начале работы с R (Пол ведет блог о машинном обучении и науке о данных). Это дает вам общее представление о том, чего ожидать и сколько времени вам нужно потратить, чтобы получить четкое представление. Он также предоставляет ссылки на пару очень качественных учебников, которые дадут вам навыки, необходимые для освоения R.

Вывод

В мире, который все больше зависит от данных, изучение языка анализа данных, особенно разработанного специально для этой задачи, является отличным дополнением к любому набору навыков и может открыть множество возможностей.