Публикации по теме 'r'


Полное введение в анализ временных рядов (с R): Стационарные процессы III
В прошлый раз мы определили характеристику стационарности и исследовали три важных примера: шум IID, белый шум и случайные блуждания, а также способы создания и проверки их графиков данных и графиков АКФ для определения стационарности. На этот раз мы рассмотрим два примера наиболее важных процессов анализа временных рядов: процесс авторегрессии первого порядка AR(1) . Авторегрессионный процесс первого порядка AR(1) Давайте посмотрим на определение AR(1): Тогда процесс..

Панды против Tidyverse на текстовых данных
Как управлять строками в обеих библиотеках Текстовые данные обычно не представлены в красивом и чистом формате, поэтому они требуют большой предварительной обработки и манипуляций. Значительный объем необработанных данных является текстовым, поэтому библиотека анализа данных должна очень хорошо обрабатывать строки. В этой статье мы сравним две популярные библиотеки с точки зрения работы со строками. Первый - это pandas, библиотека анализа и обработки данных для Python. Другой -..

Python «обгоняет» R
В этом месяце KDNuggets опубликовали опрос , в котором они спрашивали пользователей, какие языки обработки данных они используют. Впервые больше пользователей заявили, что используют Python, чем R. Помимо валидности этого опроса и его методологии, я нахожу его интересным прежде всего потому, что он отражает мой собственный опыт за последний год. Большую часть 2016 года, а также ранее я был в основном пользователем R. Я использовал его для простого моделирования и более глубокого..

randomforest в rpart — часть 1: получение данных
Немного домашнего хозяйства: Всю свою R-работу я делаю в RStudio . Это не лучшая IDE в мире, но она довольно проста и удобна в использовании. Я предполагаю, что любой, кто читает это, имеет базовые знания R. Если вы хотите изучить R, есть несколько действительно хороших ресурсов, которые можно быстро найти в Google, включая Hadley Wickham’s R for Data Science . Если вам нужна дополнительная информация о какой-либо из функций, которые я использую, к справке R очень легко добраться...

Изучение недоедания: часть 3 - Исследование данных
Исследовательский проект визуального исследования данных для лучшего понимания нюансов нашего глобального питания СОДЕРЖАНИЕ Это часть 3 исследовательского проекта из 8 частей, цель которого - лучше понять нюансы нашего глобального питания. Он исследует эту тему с помощью методов визуализации данных и науки о данных. Он дополняется веб-приложением ExploringUndernourishment , которое свободно доступно для всех. Часть 1 - Введение и обзор Часть 2 - Обзор литературы..

Python и R в продакшене  — на основе API
В моем предыдущем посте я обсуждал, как мы можем изменить историю R & Python, чтобы она основывалась на API, как способ преодоления языкового разрыва. История любви R&Python напоминает безответную любовь (h/t) . Большая часть разработки по интеграции двух языков была в значительной степени сосредоточена на пользовательском опыте R. Хотя разработки в отношении reticulate были огромными и их нельзя недооценивать, возможно, стоит изучить другой способ совместного использования R и Python..

Обнаружение мошенничества с кредитными картами в R— AUC 98,2% | Лучший результат - 99,2%
Мошенничество | Обнаружение аномалий Обнаружение мошенничества с кредитными картами в R: лучший результат AUC 99,2% Облегченная модель GBM и синтетические точки данных в несбалансированном наборе данных Что такое Light GBM Light GBM - это высокопроизводительная структура повышения градиента (GBDT, GBRT, GBM или MART), которая используется для задач, связанных с классификацией, машинным обучением и ранжированием. Light GBM выращивает деревья вертикально , в то время как..