Позвольте мне рассказать вам кое-что о некоторых замечательных библиотеках, которые есть в R. Я считаю эти библиотеки лучшими в области науки о данных. Эти библиотеки обладают широким набором функций и весьма полезны для операций по Data Science. Я использовал их и до сих пор использую в большинстве своих повседневных операций по анализу данных. Не теряя впустую время, позвольте мне начать с классных вещей R.

Эти библиотеки, упомянутые здесь, расположены в случайном порядке и не хотят давать им рейтинг, потому что все они полезны по-своему, и оценивать их неоправданно.

1. Dplyr

Dplyr в основном используется для обработки данных в R. Dplyr фактически построен на этих 5 функциях. Эти функции составляют большую часть операций с данными, которые вы обычно выполняете. Вы можете работать как с локальными фреймами данных, так и с удаленными таблицами базы данных. Вам может понадобиться:

Выберите определенные столбцы данных.

Фильтруйте свои данные, чтобы выбрать определенные строки.

Расположите строки данных в определенном порядке.

Измените фрейм данных, чтобы он содержал новые столбцы.

Суммируйте фрагменты ваших данных каким-либо образом.

Он также имеет такие функции, как sample, group by и pipe..

2. Ggplot2

Ggplot2 - одна из лучших библиотек для визуализации данных в R. Библиотека ggplot2 реализует «грамматику графики» (Wilkinson, 2005). Этот подход дает нам согласованный способ создания визуализаций, выражая отношения между атрибутами данных и их графическим представлением. Ggplot2 имеет широкий набор функций.

Прочтите эту документацию по R, чтобы узнать о функциях ggplot2, щелкните здесь: https://bit.ly/2DBo0VK

3. Esquisse - Мой любимый пакет, лучшее дополнение к R.

Не нравится ggplot2? возникли проблемы с использованием ggplot2 и его функций, тогда этот пакет для вас. Этот пакет перенес наиболее важную функцию Tableau в R. Просто перетащите мышью и получите визуализацию за считанные минуты. На самом деле это усовершенствование ggplot2. Это дополнение позволяет вам интерактивно исследовать ваши данные, визуализируя их с помощью пакета ggplot2. Он позволяет рисовать гистограммы, кривые, диаграммы разброса, гистограммы, а затем экспортировать график или извлекать код, генерирующий график. Это здорово, не правда ли?

4. Биокондуктор

Когда вы попадаете в Data Science, вы имеете дело с разными видами данных. Вы можете не знать, с какими данными вам придется иметь дело в будущем. Если вы работаете в сфере здравоохранения, поверьте мне, вы найдете это очень полезным. Я считаю эту библиотеку очень полезной при работе с геномными данными. Bioconductor - это проект с открытым исходным кодом, в котором размещен широкий спектр инструментов для анализа биологических данных с помощью R. Чтобы установить пакеты Bioconductor, вам необходимо установить biocmanager.

  • Графика: геноплоттер, hexbin.
  • Аннотация: аннотировать, AnnBuilder ‹-данные пакеты.
  • Предварительная обработка данных олигонуклеотидного чипа Affymetrix: affy, affycomp, affydata, makecdfenv, vsn.
  • Предварительная обработка данных микрочипов ДНК с двухцветными пятнами: limma, marrayClasses, marrayInput, marrayNorm, marrayPlots, marrayTools, vsn.
  • Дифференциальная экспрессия генов: edd, genefilter, limma, multtest, ROC.
  • Графы и сети: граф, RBGL, Рграфвиз.
  • Анализ данных SAGE: SAGElyzer.

Щелкните здесь, чтобы узнать больше об установке и других пакетах Bioconductor: https://bit.ly/2OUYdd5

5. Блестящий

Это очень известный пакет в R. Если вы хотите поделиться своими материалами с окружающими вас людьми и упростить им понимание и визуальное изучение, вы можете использовать shiny. Это лучший друг Data Scientist. Shiny упрощает создание интерактивных веб-приложений. Вы можете размещать автономные приложения на веб-странице, встраивать их в документы R Markdown или создавать информационные панели. Вы также можете расширить свои блестящие приложения с помощью тем CSS, HTML-виджетов и действий JavaScript.

6. Lubridate

Эта библиотека очень хорошо выполняет свою задачу. В основном он используется для обработки данных. Это упрощает работу с датой и временем в R. Вы можете делать все, что вы когда-либо хотели делать с арифметикой даты, используя эту библиотеку, хотя понимание и использование доступных функций здесь может быть несколько сложным. Когда вы анализируете данные временных рядов и хотите агрегировать данные по месяцам, вы можете использовать floor_date из пакета lubridate, он легко выполнит вашу работу. Обладает широким набором функций. Вы можете прочитать документацию здесь: https://bit.ly/2AbTEpf

7. Knitr

Этот пакет используется для создания динамических отчетов в R. Цель knitr - обеспечить воспроизводимость исследований в R с помощью средств грамотного программирования. Этот пакет также позволяет интегрировать код R в документы LaTeX, Markdown, LyX, HTML, AsciiDoc и reStructuredText. Вы можете добавить R в документ с уценкой и легко создавать отчеты в HTML, Word и других форматах. Незаменим, если вы заинтересованы в воспроизводимых исследованиях и автоматизации перехода от анализа данных к созданию отчетов.

8. Млр

Этот пакет абсолютно невероятен для выполнения задач машинного обучения. В нем практически есть все важные и полезные алгоритмы для выполнения задач машинного обучения. Его также можно назвать расширяемой структурой для классификации, регрессии, кластеризации, множественной классификации и анализа выживаемости. Он также имеет методы фильтра и оболочки для выбора функций. Другое дело, что большинство выполняемых здесь операций можно распараллелить. Здесь в документации упоминается широкий спектр функций: https://bit.ly/2QflLy6

9. Quanteda. словари

Этот пакет расширяет возможности пакета quanteda. Он состоит из словарей для анализа текста. Он в основном предназначен для работы с quanteda, но также может хорошо работать с другими библиотеками анализа текста, такими как tm, tidytext и udpipe. С помощью функции liwcalike () из пакета quanteda.dictionaries вы можете легко анализировать текстовые корпуса, используя существующие или пользовательские словари. Вы можете установить этот пакет со страницы github.

10. DT

Это оболочка библиотеки JavaScript DataTables. Он используется для отображения данных, вы можете отображать матрицы R и фреймы данных в виде интерактивных таблиц HTML. Вы можете создать сортируемую таблицу с минимальным объемом кода, используя эту библиотеку, фактически вы можете создать сортируемую таблицу с возможностью поиска всего в одной строке кода. Вы также можете стилизовать свой стол. DataTables также обеспечивает фильтрацию, разбиение на страницы, сортировку и многие другие функции в таблицах.

11. RCrawler

RCrawler - это дополнительный пакет R для доменного сканирования веб-страниц и парсинга контента. Он добавляет функции сканирования, которых нет в пакете Rvest. RCrawler может сканировать, анализировать, хранить страницы, извлекать содержимое и создавать данные, которые можно напрямую использовать для приложений интеллектуального анализа веб-содержимого. Процесс сканирования выполняется несколькими параллельными процессами или узлами параллельно, поэтому рекомендуется использовать 64-битную версию R.

12. Каретка

Карет означает классификацию и регрессионное обучение. Одним из основных инструментов в пакете является функция поезда, которую можно использовать. оценить, используя повторную выборку, влияние параметров настройки модели на производительность. У Caret есть несколько функций, которые пытаются упростить процесс построения и оценки модели, а также выбор функций и другие методы. Один только этот пакет - это все, что вам нужно знать для решения практически любой задачи контролируемого машинного обучения. Он обеспечивает единый интерфейс для нескольких алгоритмов машинного обучения и стандартизирует различные другие задачи, такие как разделение данных, предварительная обработка, выбор функций, оценка важности переменных и т. Д.

13. RMarkdown

R Markdown позволяет создавать документы, которые служат аккуратной записью вашего анализа. В мире воспроизводимых исследований мы хотим, чтобы другие исследователи легко понимали, что мы сделали в нашем анализе, иначе никто не может быть уверен, что вы правильно проанализировали свои данные. R Markdown - это вариант Markdown, в который встроены фрагменты кода R, которые можно использовать с knitr, чтобы упростить создание воспроизводимых веб-отчетов. Вы можете превратить свой анализ в высококачественные документы, отчеты, презентации и информационные панели с помощью R Markdown.

14. Буклет

Это библиотека javascript, которая в основном используется для картографии и работы с интерактивными картами. Более того, вы можете напрямую использовать эти карты из консоли R. Leaflet предоставляет вам различный набор функций, которые можно использовать для стилизации и настройки вашей карты. Работа по развитию этой библиотеки также обширна. Обязательно попробуйте эту библиотеку, если хотите работать с картами. Вы также можете использовать разные плитки для своих карт помимо базовых карт.

15. Дворник

Janitor упрощает простую очистку данных, например поиск дубликатов по нескольким столбцам, создание удобных для R имен столбцов и удаление пустых столбцов. Он также имеет несколько хороших инструментов табуляции, таких как добавление итоговой строки, а также создание таблиц с процентами и удобными перекрестными таблицами. И его функция get_dupes () - это элегантный способ поиска повторяющихся строк во фреймах данных на основе одного столбца, нескольких столбцов или целых строк.

Другие заслуживающие упоминания библиотеки R:

  1. Ggvis
  2. Сюжетно
  3. Rcharts
  4. Рбоке
  5. Метла
  6. StringR
  7. Магриттр
  8. Slidify
  9. Rvest
  10. Будущее
  11. RMySQL
  12. RSQLite
  13. Пророк
  14. Glmnet
  15. Text2Vec
  16. СнежокC
  17. Quantmod
  18. Рстан
  19. Водоворот
  20. DataScienceR

Если я пропустил какую-либо важную библиотеку, сообщите мне об этом ниже в разделе комментариев.

Итак, вот и все, это были некоторые из лучших библиотек, которые вам нужно знать, чтобы выполнять повседневные операции в области Data Science.

Проявите немного любви, если это поможет!

Спасибо за чтение!