Публикации по теме rdd

Публикации по теме 'rdd'

Apache Spark и RDD: распределенная отказоустойчивая абстракция в памяти для машинного обучения

Вступление В наши дни существует множество приложений, которые полагаются на тяжелую обработку данных и используют итерационные алгоритмы, такие как градиентный спуск, или выполняют интерактивные запросы интеллектуального анализа данных. Эти методы широко используются в области машинного обучения, анализа данных. Один из популярных фреймворков, обеспечивающих эту возможность, - Apache Spark . Основным строительным блоком Spark является отказоустойчивая абстракция распределенной..

Вопросы по теме 'rdd'

Spark: как указать количество исполнителей для хранения RDD?

Я пытаюсь максимизировать параллелизм, распределяя RDD среди как можно большего числа исполнителей. Насколько мне известно, пользователь может использовать перераспределение, объединение или распараллеливание для изменения количества разделов. Но я...

1484 просмотров

apache-spark rdd

20.10.2022

Использование foreach с Spark RDD в python

Я пытаюсь взять очень большой RDD, работающий в кластере, и записать его в .csv. Он настолько велик, что .collect() ломается, поэтому вместо этого я хотел бы сохранить RDD по частям на каждом узле, а затем каким-то образом собрать их вместе,...

17899 просмотров

python foreach apache-spark rdd

08.05.2022

Коллекция обновлений в MongoDb через Apache Spark с использованием коннектора Mongo-Hadoop.

Я хотел бы обновить определенную коллекцию в MongoDb через Spark в Java. Я использую Коннектор MongoDB для Hadoop для извлечения и сохранения информации из Apache Spark для MongoDb в Java. После прочтения отличного сообщения Sampo Niskanen о...

3408 просмотров

java mongodb apache-spark rdd

14.02.2024

выполнение кода внутри Spark foreach

У меня есть два RDD: points и pointsWithinEps . Каждая точка в points представляет x, y координату. pointsWithinEps обозначают две точки и расстояние между ними: ((x, y), distance) . Я хочу зациклить все точки и для каждой точки...

2373 просмотров

apache-spark scala rdd

13.05.2023

Spark: как разделить RDD[T]` на Seq[RDD[T]] и сохранить порядок

Как я могу эффективно разделить RDD[T] на Seq[RDD[T]] / Iterable[RDD[T]] с элементами n и сохранить исходный порядок? Я хотел бы иметь возможность написать что-то вроде этого RDD(1, 2, 3, 4, 5, 6, 7, 8, 9).split(3) что должно...

1196 просмотров

apache-spark spark-streaming scala rdd

23.10.2022

Как получить эквивалент SQL row_number для Spark RDD?

Мне нужно создать полный список row_numbers для таблицы данных со многими столбцами. В SQL это будет выглядеть так: select key_value, col1, col2, col3, row_number() over (partition by key_value order by col1, col2 desc, col3)...

43175 просмотров

sql apache-spark rdd row-number

13.04.2024

Не удалось выполнить операцию RDD при установке разделителя записей Spark с помощью org.apache.hadoop.conf.Configuration.

Я хочу обработать большой текстовый файл «mydata.txt» (фактический размер файла составляет около 30 ГБ) с помощью Spark. Разделитель записи "\ |" затем "\n". Поскольку разделителем записей загружаемого файла (по «sc.textFile») по умолчанию является...

4436 просмотров

configuration apache-spark scala rdd delimiter

20.12.2023

Spark RDD - как они работают

У меня есть небольшая программа Scala, которая отлично работает на одном узле. Однако я масштабирую его, чтобы он работал на нескольких узлах. Это моя первая такая попытка. Я просто пытаюсь понять, как RDD работают в Spark, поэтому этот вопрос...

4910 просмотров

apache-spark scala bigdata rdd distributed-computing

20.07.2023

Сравните данные в двух RDD в искре

Я могу печатать данные в двух RDD с помощью приведенного ниже кода. usersRDD.foreach(println) empRDD.foreach(println) Мне нужно сравнить данные в двух СДР. Как я могу повторять и сравнивать данные поля в одном RDD с данными поля в другом...

16026 просмотров

apache-spark rdd cloudera-cdh scala-2.10

28.07.2023

Как получить n-й ряд Spark RDD?

Предположим, у меня есть RDD произвольных объектов. Я хочу получить 10-ю (скажем) строку СДР. Как бы я это сделал? Один из способов — использовать rdd.take(n), а затем получить доступ к n-му элементу — объекту, но этот подход медленный, когда n...

25236 просмотров

apache-spark hadoop rdd

12.05.2024

Функциональный подход к последовательной обработке RDD [Apache Spark]

У меня есть RDD, подключенный к таблице HBase. Каждая строка (ключ) представляет местоположение GPS. Теперь я написал функцию для вычисления расстояния между двумя точками. Функция должна вызываться с текущей строкой и ее предшественником [i-1]...

972 просмотров

apache-spark rdd

03.06.2023

Как создать ClassTag для сопоставления Spark SQL DataFrame?

Запросы Spark SQL 1.2.0 возвращают JavaRDD. Запросы Spark SQL 1.3.0 возвращают DataFrame. Преобразование DataFrame в JavaRDD с помощью DataFrame.toJavaRDD, похоже, занимает довольно много времени. Я попытался использовать DataFrame.map() и...

4357 просмотров

sql apache-spark scala rdd

11.08.2022

Как прочитать csv и преобразовать в RDD в sparkR

Поскольку я программист R, я хочу использовать R в качестве интерфейса для искры, с пакетом sparkR, который я установил sparkR в R. Я новичок в sparkR. Я хочу выполнить некоторые операции с определенными данными в записи CSV. Я пытаюсь прочитать...

740 просмотров

apache-spark rdd

15.05.2022

Как сопоставить имена файлов с RDD с помощью sc.textFile(s3n://bucket/*.csv)?

Обратите внимание, я должен использовать файл sc.textFile, но я приму любые другие ответы. Что я хочу сделать, так это просто добавить имя файла, который обрабатывается в RDD... что-то вроде: var rdd =...

7620 просмотров

amazon-s3 filenames apache-spark mapping rdd

09.02.2023

Сравните строки в RDD

Как я могу перебирать строки RDD и сравнивать одну строку со следующей в RDD? Я знаю, что могу использовать цикл for следующим образом: for(x‹-rddItems), есть ли способ сделать что-то вроде x.next() внутри цикла for? или использовать некоторый...

2536 просмотров

for-loop apache-spark scala rdd

26.05.2023

Совокупные значения RDD для каждого ключа

У меня есть RDD в структуре ключа, значения (someKey, (мера1, мера2)). Я сгруппировал по ключу, и теперь я хочу агрегировать значения для каждого ключа. val RDD1 : RDD[(String,(Int,Int))] RDD1.groupByKey() результат, который мне нужен:...

3187 просмотров

apache-spark scala rdd aggregate-functions

23.02.2023

Является ли Tachyon по умолчанию реализованным RDD в Apache Spark?

Я пытаюсь понять функцию Spark в памяти. В этом процессе я наткнулся на Tachyon , который в основном находится на уровне данных памяти. который обеспечивает отказоустойчивость без репликации за счет использования систем происхождения и уменьшает...

806 просмотров

apache-spark bigdata rdd in-memory-database alluxio

19.10.2022

отображение scala / spark [String, List [String]] в пары строк

У меня есть RDD со структурами RDD:[String A,List(Strings Bs)] . Я хотел бы сопоставить его так, чтобы я получил RDD:[String A,String B] , чтобы каждый элемент в списке совпадал со строкой A. Что было бы наиболее эффективным способом сделать это?...

809 просмотров

apache-spark scala rdd

29.06.2023

Как распечатать элементы определенного раздела RDD в Spark?

Как напечатать элементы определенного раздела, скажем, 5-го, в одиночку? val distData = sc.parallelize(1 to 50, 10)

16914 просмотров

apache-spark scala rdd

08.08.2023

Форматировать (удалить класс/скобки) Вывод Spark CSV saveAsTextFile?

Я пытаюсь удалить текст класса или массива обертки из данных CSV, сохраненных с помощью saveAsTextFile, без необходимости выполнять этап постобработки, отличный от Spark. У меня есть некоторые данные TSV в больших файлах, которые я передаю в RDD....

1305 просмотров

csv apache-spark rdd

15.09.2022