Публикации по теме 'rdd'


Apache Spark и RDD: распределенная отказоустойчивая абстракция в памяти для машинного обучения
Вступление В наши дни существует множество приложений, которые полагаются на тяжелую обработку данных и используют итерационные алгоритмы, такие как градиентный спуск, или выполняют интерактивные запросы интеллектуального анализа данных. Эти методы широко используются в области машинного обучения, анализа данных. Один из популярных фреймворков, обеспечивающих эту возможность, - Apache Spark . Основным строительным блоком Spark является отказоустойчивая абстракция распределенной..

Вопросы по теме 'rdd'

Spark: как указать количество исполнителей для хранения RDD?
Я пытаюсь максимизировать параллелизм, распределяя RDD среди как можно большего числа исполнителей. Насколько мне известно, пользователь может использовать перераспределение, объединение или распараллеливание для изменения количества разделов. Но я...
1484 просмотров
schedule 20.10.2022

Использование foreach с Spark RDD в python
Я пытаюсь взять очень большой RDD, работающий в кластере, и записать его в .csv. Он настолько велик, что .collect() ломается, поэтому вместо этого я хотел бы сохранить RDD по частям на каждом узле, а затем каким-то образом собрать их вместе,...
17899 просмотров
schedule 08.05.2022

Коллекция обновлений в MongoDb через Apache Spark с использованием коннектора Mongo-Hadoop.
Я хотел бы обновить определенную коллекцию в MongoDb через Spark в Java. Я использую Коннектор MongoDB для Hadoop для извлечения и сохранения информации из Apache Spark для MongoDb в Java. После прочтения отличного сообщения Sampo Niskanen о...
3408 просмотров
schedule 14.02.2024

выполнение кода внутри Spark foreach
У меня есть два RDD: points и pointsWithinEps . Каждая точка в points представляет x, y координату. pointsWithinEps обозначают две точки и расстояние между ними: ((x, y), distance) . Я хочу зациклить все точки и для каждой точки...
2373 просмотров
schedule 13.05.2023

Spark: как разделить RDD[T]` на Seq[RDD[T]] и сохранить порядок
Как я могу эффективно разделить RDD[T] на Seq[RDD[T]] / Iterable[RDD[T]] с элементами n и сохранить исходный порядок? Я хотел бы иметь возможность написать что-то вроде этого RDD(1, 2, 3, 4, 5, 6, 7, 8, 9).split(3) что должно...
1196 просмотров
schedule 23.10.2022

Как получить эквивалент SQL row_number для Spark RDD?
Мне нужно создать полный список row_numbers для таблицы данных со многими столбцами. В SQL это будет выглядеть так: select key_value, col1, col2, col3, row_number() over (partition by key_value order by col1, col2 desc, col3)...
43175 просмотров
schedule 13.04.2024

Не удалось выполнить операцию RDD при установке разделителя записей Spark с помощью org.apache.hadoop.conf.Configuration.
Я хочу обработать большой текстовый файл «mydata.txt» (фактический размер файла составляет около 30 ГБ) с помощью Spark. Разделитель записи "\ |" затем "\n". Поскольку разделителем записей загружаемого файла (по «sc.textFile») по умолчанию является...
4436 просмотров

Spark RDD - как они работают
У меня есть небольшая программа Scala, которая отлично работает на одном узле. Однако я масштабирую его, чтобы он работал на нескольких узлах. Это моя первая такая попытка. Я просто пытаюсь понять, как RDD работают в Spark, поэтому этот вопрос...
4910 просмотров

Сравните данные в двух RDD в искре
Я могу печатать данные в двух RDD с помощью приведенного ниже кода. usersRDD.foreach(println) empRDD.foreach(println) Мне нужно сравнить данные в двух СДР. Как я могу повторять и сравнивать данные поля в одном RDD с данными поля в другом...
16026 просмотров
schedule 28.07.2023

Как получить n-й ряд Spark RDD?
Предположим, у меня есть RDD произвольных объектов. Я хочу получить 10-ю (скажем) строку СДР. Как бы я это сделал? Один из способов — использовать rdd.take(n), а затем получить доступ к n-му элементу — объекту, но этот подход медленный, когда n...
25236 просмотров
schedule 12.05.2024

Функциональный подход к последовательной обработке RDD [Apache Spark]
У меня есть RDD, подключенный к таблице HBase. Каждая строка (ключ) представляет местоположение GPS. Теперь я написал функцию для вычисления расстояния между двумя точками. Функция должна вызываться с текущей строкой и ее предшественником [i-1]...
972 просмотров
schedule 03.06.2023

Как создать ClassTag для сопоставления Spark SQL DataFrame?
Запросы Spark SQL 1.2.0 возвращают JavaRDD. Запросы Spark SQL 1.3.0 возвращают DataFrame. Преобразование DataFrame в JavaRDD с помощью DataFrame.toJavaRDD, похоже, занимает довольно много времени. Я попытался использовать DataFrame.map() и...
4357 просмотров
schedule 11.08.2022

Как прочитать csv и преобразовать в RDD в sparkR
Поскольку я программист R, я хочу использовать R в качестве интерфейса для искры, с пакетом sparkR, который я установил sparkR в R. Я новичок в sparkR. Я хочу выполнить некоторые операции с определенными данными в записи CSV. Я пытаюсь прочитать...
740 просмотров
schedule 15.05.2022

Как сопоставить имена файлов с RDD с помощью sc.textFile(s3n://bucket/*.csv)?
Обратите внимание, я должен использовать файл sc.textFile, но я приму любые другие ответы. Что я хочу сделать, так это просто добавить имя файла, который обрабатывается в RDD... что-то вроде: var rdd =...
7620 просмотров

Сравните строки в RDD
Как я могу перебирать строки RDD и сравнивать одну строку со следующей в RDD? Я знаю, что могу использовать цикл for следующим образом: for(x‹-rddItems), есть ли способ сделать что-то вроде x.next() внутри цикла for? или использовать некоторый...
2536 просмотров
schedule 26.05.2023

Совокупные значения RDD для каждого ключа
У меня есть RDD в структуре ключа, значения (someKey, (мера1, мера2)). Я сгруппировал по ключу, и теперь я хочу агрегировать значения для каждого ключа. val RDD1 : RDD[(String,(Int,Int))] RDD1.groupByKey() результат, который мне нужен:...
3187 просмотров

Является ли Tachyon по умолчанию реализованным RDD в Apache Spark?
Я пытаюсь понять функцию Spark в памяти. В этом процессе я наткнулся на Tachyon , который в основном находится на уровне данных памяти. который обеспечивает отказоустойчивость без репликации за счет использования систем происхождения и уменьшает...
806 просмотров

отображение scala / spark [String, List [String]] в пары строк
У меня есть RDD со структурами RDD:[String A,List(Strings Bs)] . Я хотел бы сопоставить его так, чтобы я получил RDD:[String A,String B] , чтобы каждый элемент в списке совпадал со строкой A. Что было бы наиболее эффективным способом сделать это?...
809 просмотров
schedule 29.06.2023

Как распечатать элементы определенного раздела RDD в Spark?
Как напечатать элементы определенного раздела, скажем, 5-го, в одиночку? val distData = sc.parallelize(1 to 50, 10)
16914 просмотров
schedule 08.08.2023

Форматировать (удалить класс/скобки) Вывод Spark CSV saveAsTextFile?
Я пытаюсь удалить текст класса или массива обертки из данных CSV, сохраненных с помощью saveAsTextFile, без необходимости выполнять этап постобработки, отличный от Spark. У меня есть некоторые данные TSV в больших файлах, которые я передаю в RDD....
1305 просмотров
schedule 15.09.2022