Вопросы по теме 'sparklyr'
Глядя на сортировку кадра данных Spark по индексу с помощью SparklyR
library(sparklyr)
library(dplyr)
library(Lahman)
spark_install(version = "2.0.0")
sc <- spark_connect(master = "local")
batting_tbl <- copy_to(sc, Lahman::Batting, "batting"); batting_tbl
batting_tbl %>% arrange(-index())
# Error:...
603 просмотров
schedule
19.01.2023
Недостаточно места в куче в sparklyr, но есть много памяти
Я получаю ошибки пространства кучи даже на довольно небольших наборах данных. Я могу быть уверен, что у меня не заканчивается системная память. Например, рассмотрим набор данных, содержащий около 20 миллионов строк и 9 столбцов и занимающий 1 ГБ на...
3278 просмотров
schedule
01.04.2023
Отсутствующие значения в Sparklyr
Я пытаюсь подсчитать недостающие значения определенного столбца в DataFrame в Sparklyr, как показано ниже.
count(filter(subdata, isNull(subdata$metric)))
Source: query [1 x 1]
Database: spark connection master=local[4] app=sparklyr local=TRUE...
1315 просмотров
schedule
05.11.2023
Идентификатор длины прогона в sparklyr
data.table предоставляет функцию rleid , которую я считаю бесценной - она действует как тикер, когда наблюдаемая переменная (переменные) изменяется, упорядоченная какой-либо другой переменной (переменными).
library(dplyr)
tbl = tibble(time...
339 просмотров
schedule
13.01.2023
Не удалось загрузить таблицу Cassandra с помощью сеанса искры, искры и R
Я использую Spark 2.1.0 и пытаюсь подключить кластер Cassandra. Я использовал последнюю версию sparklyr. Я установил конфигурации по умолчанию, как показано ниже ???? по умолчанию:
# local-only configuration
sparklyr.cores.local: !expr...
550 просмотров
schedule
10.01.2023
Не удалось проанализировать основной URL-адрес: «spark.bluemix.net».
Я пытаюсь подключиться к IBM Spark как к службе, работающей на Bluemix, из RStudio, работающей на моем настольном компьютере.
Я скопировал config.yml из автоматически настроенной среды RStudio, работающей в IBM Data Science Experience:...
354 просмотров
schedule
16.10.2022
Ошибка Sparklyr NoSuchTableException после подмножества данных
Я новичок в sparklyr и не проходил формального обучения, что станет очевидным после ответа на этот вопрос. Я также больше на статистической стороне спектра, что не помогает. Я получаю сообщение об ошибке после дополнительной настройки Spark...
121 просмотров
schedule
21.07.2023
Почему RDD сохраняется на диск с помощью spark_read_csv от sparklyr?
У меня есть кластер Spark с двумя воркерами — на всех нодах по 16 ГБ ОЗУ. Я читаю данные из S3 в Spark, используя sparklyr spark_read_csv (код ниже) с параметром MEMORY = TRUE, но, несмотря на наличие достаточного количества памяти, большая часть...
328 просмотров
schedule
14.11.2022
альтернатива copy_to в sparklyr для больших наборов данных
У меня есть код ниже, в котором набор данных выполняет преобразование SQL с помощью функции-оболочки, вызывающей API Spark SQL с помощью Sparklyr. Затем я использую invoke («createOrReplaceTempView», «name») », чтобы сохранить таблицу в среде Spark в...
1163 просмотров
schedule
30.08.2023
Матрица Math с Sparklyr
Хотите преобразовать некоторый код R в Sparklyr, такие функции, как lmtest :: coeftest () и sandwich :: sandwich (). Пытаюсь начать работу с расширениями Sparklyr, но довольно новичок в Spark API и имеет проблемы :(
Запуск Spark 2.1.1 и sparklyr...
810 просмотров
schedule
29.09.2022
SparklyR: преобразовать прямо в паркет
Привет, я новичок в кластерных вычислениях, и в настоящее время я играю только в автономном кластере ( sc <- spark_connect(master = "local", version = '2.0.2') ). У меня есть массивный файл csv (15 ГБ), который я хотел бы преобразовать в файл...
635 просмотров
schedule
17.11.2022
Разделенные струны Sparklyr
У меня есть файл с несколькими строчками. Например
A B C
awer.ttp.net Code 554
abcd.ttp.net Code 747
asdf.ttp.net Part 554
xyz.ttp.net Part 747
Я хочу создать команду в Spark в R, используя...
562 просмотров
schedule
22.09.2022
sparklyr записывает данные в hdfs или hive
Я пытался использовать sparklyr для записи данных в hdfs или hive, но не смог найти способ. Возможно ли вообще записать фрейм данных R в hdfs или hive с помощью sparklyr? Обратите внимание, что мой R и hadoop работают на двух разных серверах,...
5071 просмотров
schedule
19.10.2022
dplyr для замены всех переменных, которые соответствуют определенной строке
Есть ли эквивалент dplyr , который делает это? Я за «заменить все», что соответствует строке xxx с NA
is.na(df) <- df=="xxx"
Я хочу выполнить команду sparklyr , используя функцию канала от R до кадра данных Spark.
tbl(sc,"df")...
528 просмотров
schedule
12.10.2022
Как использовать предложение Spark-sql Range between для оконной операции с помощью sparklyr
Контекст: у меня есть большая таблица со временем входа в систему. Я хочу рассчитать скользящее количество входов в систему за указанный период (например, 3600 секунд).
В SQL / HQL я бы указал это как:
SELECT id, logon_time, COUNT(*) OVER(...
802 просмотров
schedule
09.05.2022
Маклаппли и spark_read_parquet
Я относительно новичок в качестве активного пользователя форума, но сначала должен поблагодарить всех вас за ваш вклад, потому что я много лет искал ответы...
Сегодня у меня вопрос, который никто не решил или я не могу найти...
Я пытаюсь читать...
154 просмотров
schedule
02.03.2023
Sparklyr: извлечение условных вероятностей из наивной байесовской модели
У меня есть наивная байесовская модель, работающая в sparklyr с использованием ml_naive_bayes следующим образом:
library(sparklyr)
library(dplyr)
sc <- spark_connect(master = 'local')
d <- structure(list(response = c(0L, 0L, 1L, 1L, 1L,...
182 просмотров
schedule
19.12.2022
Как использовать spark_apply для изменения значений NaN?
После использования sdf_pivot у меня осталось огромное количество значений NaN, поэтому, чтобы продолжить мой анализ, мне нужно заменить NaN на 0, я пытался использовать это:
data <- data %>%
spark_apply(function(e)...
799 просмотров
schedule
08.04.2023
Подключение Spark к R studio в Mac OS дает ошибку Hive
Я пытаюсь использовать Spark в R Studio, используя библиотеку sparklyr в MacOS. Я установил его с помощью следующих команд
# Install the sparklyr package
install.packages("sparklyr")
# Now load the library
library(sparklyr)
# Install Spark to...
496 просмотров
schedule
05.01.2023
Разложить (разделить) значения нескольких столбцов на новые строки с помощью Sparklyr
Я пытаюсь разделить значения столбца, разделенные запятой (,), на новые строки на основе идентификаторов. Я знаю, как это сделать в R , используя dplyr и tidyr . Но я хочу решить ту же проблему в sparklyr .
id <-...
827 просмотров
schedule
10.04.2023