Вопросы по теме 'spark-dataframe'

Как указать отсутствующее значение в кадре данных
Я пытаюсь загрузить CSV-файл во фрейм данных Spark с помощью spark-csv [1], используя блокнот Apache Zeppelin, и при загрузке числового поля, которое не имеет значения, синтаксический анализатор не работает для этой строки, и строка пропускается. Я...
3648 просмотров

Как можно добавить новый столбец в существующий фрейм данных в Spark SQL
Я использую API DataFrame . У меня есть существующий DataFrame и объект List (также можно использовать Array). Как можно добавить этот список в существующий DataFrame в качестве нового столбца? Должен ли я использовать класс Column для этого?
6888 просмотров

это произошло с java.sql.SQLException: не найден подходящий драйвер для jdbc: oracle: @ 192.164.6.77: 1521: BDSS при искровом подключении оракула
следующий мой код. во-первых, ./spark-shell --master spark://172.11.11.11:7077 --jars /opt/beh/bin/ojdbc14.jar во-вторых, `import java.util.Properties` `val sqlContext = new org.apache.spark.sql.SQLContext(sc)` `val properties = new...
547 просмотров
schedule 26.12.2022

sqlContext.createDataframe из строки со схемой. pyspark: TypeError: IntegerType не может принимать объект типа ‹типа «юникод»›
Потратив много времени на выяснение, почему я получаю следующую ошибку pyspark: TypeError: IntegerType can not accept object in type <type 'unicode'> при попытке создать фрейм данных на основе строк и схемы я заметил следующее:...
9312 просмотров

как создать EdgeRDD из фрейма данных в Spark
У меня есть фрейм данных в искре. Каждая строка представляет человека, и я хочу получить возможные связи между ними. Правило наличия ссылки состоит в том, что для каждой возможной пары, если они имеют одинаковую prop1:String и абсолютная разница...
1609 просмотров
schedule 12.02.2023

Spark 1.6: java.lang.IllegalArgumentException: spark.sql.execution.id уже установлен
Я использую spark 1.6 и сталкиваюсь с проблемой выше, когда запускаю следующий код: // Imports import org.apache.spark.sql.hive.HiveContext import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.sql.SaveMode import...
4656 просмотров

Повторное использование объединенного фрейма данных в Spark
Я запускаю HDFS и Spark локально и пытаюсь понять, как работает постоянство Spark. Моя цель — сохранить объединенный набор данных в памяти, а затем выполнять к нему запросы на лету. Однако мои запросы, похоже, повторяют соединение, а не просто...
2249 просмотров

Аккумуляторы искры: Правильный аккумулятор иногда много или всегда один?
Я пытаюсь использовать аккумулятор Spark для удаления группы по запросу с низкой производительностью. import org.apache.spark._ object CountPairsParam extends AccumulatorParam[Map[Int, Set[Int]]] { def zero(initialValue: Map[Int, Set[Int]]):...
934 просмотров
schedule 19.02.2023

Почему задание Spark завершается с ошибкой с кодом выхода: 52
У меня был сбой задания Spark с такой трассировкой: ./containers/application_1455622885057_0016/container_1455622885057_0016_01_000001/stderr-Container id: container_1455622885057_0016_01_000008...
17149 просмотров
schedule 27.08.2022

Spark.sql выбирает строки, у которых нет соответствующего столбца в другой таблице
У меня есть кадр данных, называемый ребрами, который выглядит так: +------+------+-------------------+ | src| dst| mean_affinity| +------+------+-------------------+ | [78]| [81]|...
851 просмотров

Spark: сопоставление RDD с RDD, возвращающее исключение нулевого указателя
В моей логике я пытаюсь сопоставить JDBCRDD - TopologyRDD с JavaBean JavaRDD. TopologyRDD.count() возвращает ПРАВИЛЬНОЕ количество строк, поэтому я знаю, что данные были загружены правильно. Я также сопоставил TopologyRDD со списком только для...
862 просмотров

Scala java.lang.String не может быть преобразован в java.lang. Двойная ошибка при преобразовании кадра данных двойного типа в LabeledPoint в Spark
У меня есть набор данных переменных 2002 года. Все переменные числовые. Сначала я прочитал набор данных для Spark 1.5.0 и создал кадр данных Double Type, следуя инструкции здесь . Затем я преобразовал фрейм данных в LabeledPoint, следуя...
7347 просмотров

Совокупность фреймов данных Spark по нескольким столбцам
Actually I am working on pyspark code. My dataframe is +-------+--------+--------+--------+--------+ |element|collect1|collect2|collect3|collect4| +-------+--------+--------+--------+--------+ |A1 | 1.02 | 2.6 | 5.21 | 3.6 | |A2 |...
3337 просмотров

Преобразование значений строки в массив столбцов в искровом фрейме данных
Я работаю над искровыми фреймами данных, и мне нужно сделать группу по столбцу и преобразовать значения столбца сгруппированных строк в массив элементов в качестве нового столбца. Пример : Input: employee | Address ------------------ Micheal |...
12718 просмотров
schedule 28.10.2022

Фильтрация строк на основе значений последующих строк в искровом фрейме данных
Мне нужно отфильтровать строки на основе значений последующих строк. Вот пример кадра данных inputFrame | id|value|sorted| +---+-----+------+ | 3| 0| 6| | 3| 1| 5| | 3| 0| 7| | 4| 1| 4| | 4| 0| 1| | 4|...
101 просмотров
schedule 14.04.2023

Как работать с потоковыми данными/журналами в реальном времени с помощью искровой потоковой передачи?
Я новичок в Spark и Scala. Я хочу реализовать Spark Consumer в РЕАЛЬНОМ ВРЕМЕНИ, который мог бы считывать сетевые журналы каждую минуту [извлекая около 1 ГБ строк журнала JSON в минуту] из Kafka Publisher и, наконец, сохранять агрегированные...
1173 просмотров

Как получить такие метрики, как размер вывода и записи, написанные из пользовательского интерфейса Spark?
Как мне собрать эти метрики на консоли (Spark Shell или Spark submit job) сразу после выполнения задачи или задания. Мы используем Spark для загрузки данных из Mysql в Cassandra, и он довольно большой (например: ~ 200 ГБ и 600 млн строк). Когда...
3762 просмотров

Spark SQL, например, не возвращает результатов. Искра версии 1.5.1/1.5.2 с использованием sqlContext select
Не похоже, что spark sql с ульем поддерживает «sql как». Вот пример кода, который я использую для тестирования в spark-shell case class Department(id: String, name: String) val department1 = new Department("123456", "Computer Science") val...
31 просмотров

Самый быстрый способ проверить, пуст ли DataFrame (Scala)?
Как быстрее всего проверить, пуст ли DataFrame( Scala )? Я использую DF.limit(1).rdd.isEmpty , быстрее, чем DF.rdd.isEmpty, но не идеально. Есть ли лучший способ сделать это?
7241 просмотров

Почему мое приложение Spark работает только в одном исполнителе?
Я все еще довольно новичок в Spark, но мне удалось создать приложение Spark, которое мне нужно, чтобы иметь возможность повторно обрабатывать данные с нашего SQL Server с помощью драйверов JDBC (мы удаляем дорогие SP), приложение загружает несколько...
2109 просмотров