Вопросы по теме 'sparklyr'

Глядя на сортировку кадра данных Spark по индексу с помощью SparklyR
library(sparklyr) library(dplyr) library(Lahman) spark_install(version = "2.0.0") sc <- spark_connect(master = "local") batting_tbl <- copy_to(sc, Lahman::Batting, "batting"); batting_tbl batting_tbl %>% arrange(-index()) # Error:...
603 просмотров

Недостаточно места в куче в sparklyr, но есть много памяти
Я получаю ошибки пространства кучи даже на довольно небольших наборах данных. Я могу быть уверен, что у меня не заканчивается системная память. Например, рассмотрим набор данных, содержащий около 20 миллионов строк и 9 столбцов и занимающий 1 ГБ на...
3278 просмотров
schedule 01.04.2023

Отсутствующие значения в Sparklyr
Я пытаюсь подсчитать недостающие значения определенного столбца в DataFrame в Sparklyr, как показано ниже. count(filter(subdata, isNull(subdata$metric))) Source: query [1 x 1] Database: spark connection master=local[4] app=sparklyr local=TRUE...
1315 просмотров
schedule 05.11.2023

Идентификатор длины прогона в sparklyr
data.table предоставляет функцию rleid , которую я считаю бесценной - она ​​действует как тикер, когда наблюдаемая переменная (переменные) изменяется, упорядоченная какой-либо другой переменной (переменными). library(dplyr) tbl = tibble(time...
339 просмотров
schedule 13.01.2023

Не удалось загрузить таблицу Cassandra с помощью сеанса искры, искры и R
Я использую Spark 2.1.0 и пытаюсь подключить кластер Cassandra. Я использовал последнюю версию sparklyr. Я установил конфигурации по умолчанию, как показано ниже ???? по умолчанию: # local-only configuration sparklyr.cores.local: !expr...
550 просмотров

Не удалось проанализировать основной URL-адрес: «spark.bluemix.net».
Я пытаюсь подключиться к IBM Spark как к службе, работающей на Bluemix, из RStudio, работающей на моем настольном компьютере. Я скопировал config.yml из автоматически настроенной среды RStudio, работающей в IBM Data Science Experience:...
354 просмотров

Ошибка Sparklyr NoSuchTableException после подмножества данных
Я новичок в sparklyr и не проходил формального обучения, что станет очевидным после ответа на этот вопрос. Я также больше на статистической стороне спектра, что не помогает. Я получаю сообщение об ошибке после дополнительной настройки Spark...
121 просмотров
schedule 21.07.2023

Почему RDD сохраняется на диск с помощью spark_read_csv от sparklyr?
У меня есть кластер Spark с двумя воркерами — на всех нодах по 16 ГБ ОЗУ. Я читаю данные из S3 в Spark, используя sparklyr spark_read_csv (код ниже) с параметром MEMORY = TRUE, но, несмотря на наличие достаточного количества памяти, большая часть...
328 просмотров
schedule 14.11.2022

альтернатива copy_to в sparklyr для больших наборов данных
У меня есть код ниже, в котором набор данных выполняет преобразование SQL с помощью функции-оболочки, вызывающей API Spark SQL с помощью Sparklyr. Затем я использую invoke («createOrReplaceTempView», «name») », чтобы сохранить таблицу в среде Spark в...
1163 просмотров
schedule 30.08.2023

Матрица Math с Sparklyr
Хотите преобразовать некоторый код R в Sparklyr, такие функции, как lmtest :: coeftest () и sandwich :: sandwich (). Пытаюсь начать работу с расширениями Sparklyr, но довольно новичок в Spark API и имеет проблемы :( Запуск Spark 2.1.1 и sparklyr...
810 просмотров

SparklyR: преобразовать прямо в паркет
Привет, я новичок в кластерных вычислениях, и в настоящее время я играю только в автономном кластере ( sc <- spark_connect(master = "local", version = '2.0.2') ). У меня есть массивный файл csv (15 ГБ), который я хотел бы преобразовать в файл...
635 просмотров
schedule 17.11.2022

Разделенные струны Sparklyr
У меня есть файл с несколькими строчками. Например A B C awer.ttp.net Code 554 abcd.ttp.net Code 747 asdf.ttp.net Part 554 xyz.ttp.net Part 747 Я хочу создать команду в Spark в R, используя...
562 просмотров
schedule 22.09.2022

sparklyr записывает данные в hdfs или hive
Я пытался использовать sparklyr для записи данных в hdfs или hive, но не смог найти способ. Возможно ли вообще записать фрейм данных R в hdfs или hive с помощью sparklyr? Обратите внимание, что мой R и hadoop работают на двух разных серверах,...
5071 просмотров
schedule 19.10.2022

dplyr для замены всех переменных, которые соответствуют определенной строке
Есть ли эквивалент dplyr , который делает это? Я за «заменить все», что соответствует строке xxx с NA is.na(df) <- df=="xxx" Я хочу выполнить команду sparklyr , используя функцию канала от R до кадра данных Spark. tbl(sc,"df")...
528 просмотров
schedule 12.10.2022

Как использовать предложение Spark-sql Range between для оконной операции с помощью sparklyr
Контекст: у меня есть большая таблица со временем входа в систему. Я хочу рассчитать скользящее количество входов в систему за указанный период (например, 3600 секунд). В SQL / HQL я бы указал это как: SELECT id, logon_time, COUNT(*) OVER(...
802 просмотров
schedule 09.05.2022

Маклаппли и spark_read_parquet
Я относительно новичок в качестве активного пользователя форума, но сначала должен поблагодарить всех вас за ваш вклад, потому что я много лет искал ответы... Сегодня у меня вопрос, который никто не решил или я не могу найти... Я пытаюсь читать...
154 просмотров
schedule 02.03.2023

Sparklyr: извлечение условных вероятностей из наивной байесовской модели
У меня есть наивная байесовская модель, работающая в sparklyr с использованием ml_naive_bayes следующим образом: library(sparklyr) library(dplyr) sc <- spark_connect(master = 'local') d <- structure(list(response = c(0L, 0L, 1L, 1L, 1L,...
182 просмотров
schedule 19.12.2022

Как использовать spark_apply для изменения значений NaN?
После использования sdf_pivot у меня осталось огромное количество значений NaN, поэтому, чтобы продолжить мой анализ, мне нужно заменить NaN на 0, я пытался использовать это: data <- data %>% spark_apply(function(e)...
799 просмотров
schedule 08.04.2023

Подключение Spark к R studio в Mac OS дает ошибку Hive
Я пытаюсь использовать Spark в R Studio, используя библиотеку sparklyr в MacOS. Я установил его с помощью следующих команд # Install the sparklyr package install.packages("sparklyr") # Now load the library library(sparklyr) # Install Spark to...
496 просмотров
schedule 05.01.2023

Разложить (разделить) значения нескольких столбцов на новые строки с помощью Sparklyr
Я пытаюсь разделить значения столбца, разделенные запятой (,), на новые строки на основе идентификаторов. Я знаю, как это сделать в R , используя dplyr и tidyr . Но я хочу решить ту же проблему в sparklyr . id <-...
827 просмотров
schedule 10.04.2023