Публикации по теме spark-dataframe [csv, apache-spark, apache-zeppelin, spark-dataframe, java-8]

Вопросы по теме 'spark-dataframe'

Как указать отсутствующее значение в кадре данных

Я пытаюсь загрузить CSV-файл во фрейм данных Spark с помощью spark-csv [1], используя блокнот Apache Zeppelin, и при загрузке числового поля, которое не имеет значения, синтаксический анализатор не работает для этой строки, и строка пропускается. Я...

3648 просмотров

21.09.2022

Как можно добавить новый столбец в существующий фрейм данных в Spark SQL

Я использую API DataFrame . У меня есть существующий DataFrame и объект List (также можно использовать Array). Как можно добавить этот список в существующий DataFrame в качестве нового столбца? Должен ли я использовать класс Column для этого?

6888 просмотров

java-8 dataframe apache-spark-sql spark-dataframe

11.09.2022

это произошло с java.sql.SQLException: не найден подходящий драйвер для jdbc: oracle: @ 192.164.6.77: 1521: BDSS при искровом подключении оракула

следующий мой код. во-первых, ./spark-shell --master spark://172.11.11.11:7077 --jars /opt/beh/bin/ojdbc14.jar во-вторых, `import java.util.Properties` `val sqlContext = new org.apache.spark.sql.SQLContext(sc)` `val properties = new...

547 просмотров

apache-spark spark-dataframe

26.12.2022

sqlContext.createDataframe из строки со схемой. pyspark: TypeError: IntegerType не может принимать объект типа ‹типа «юникод»›

Потратив много времени на выяснение, почему я получаю следующую ошибку pyspark: TypeError: IntegerType can not accept object in type <type 'unicode'> при попытке создать фрейм данных на основе строк и схемы я заметил следующее:...

9312 просмотров

apache-spark pyspark apache-spark-sql unicode spark-dataframe

22.10.2022

как создать EdgeRDD из фрейма данных в Spark

У меня есть фрейм данных в искре. Каждая строка представляет человека, и я хочу получить возможные связи между ними. Правило наличия ссылки состоит в том, что для каждой возможной пары, если они имеют одинаковую prop1:String и абсолютная разница...

1609 просмотров

apache-spark scala spark-dataframe

12.02.2023

Spark 1.6: java.lang.IllegalArgumentException: spark.sql.execution.id уже установлен

Я использую spark 1.6 и сталкиваюсь с проблемой выше, когда запускаю следующий код: // Imports import org.apache.spark.sql.hive.HiveContext import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.sql.SaveMode import...

4656 просмотров

apache-spark apache-spark-sql scala spark-dataframe

04.04.2023

Повторное использование объединенного фрейма данных в Spark

Я запускаю HDFS и Spark локально и пытаюсь понять, как работает постоянство Spark. Моя цель — сохранить объединенный набор данных в памяти, а затем выполнять к нему запросы на лету. Однако мои запросы, похоже, повторяют соединение, а не просто...

2249 просмотров

apache-spark hadoop hdfs scala spark-dataframe

10.07.2022

Аккумуляторы искры: Правильный аккумулятор иногда много или всегда один?

Я пытаюсь использовать аккумулятор Spark для удаления группы по запросу с низкой производительностью. import org.apache.spark._ object CountPairsParam extends AccumulatorParam[Map[Int, Set[Int]]] { def zero(initialValue: Map[Int, Set[Int]]):...

934 просмотров

apache-spark scala spark-dataframe

19.02.2023

Почему задание Spark завершается с ошибкой с кодом выхода: 52

У меня был сбой задания Spark с такой трассировкой: ./containers/application_1455622885057_0016/container_1455622885057_0016_01_000001/stderr-Container id: container_1455622885057_0016_01_000008...

17149 просмотров

apache-spark yarn spark-dataframe

27.08.2022

Spark.sql выбирает строки, у которых нет соответствующего столбца в другой таблице

У меня есть кадр данных, называемый ребрами, который выглядит так: +------+------+-------------------+ | src| dst| mean_affinity| +------+------+-------------------+ | [78]| [81]|...

851 просмотров

apache-spark pyspark apache-spark-sql pyspark-sql spark-dataframe

06.09.2022

Spark: сопоставление RDD с RDD, возвращающее исключение нулевого указателя

В моей логике я пытаюсь сопоставить JDBCRDD - TopologyRDD с JavaBean JavaRDD. TopologyRDD.count() возвращает ПРАВИЛЬНОЕ количество строк, поэтому я знаю, что данные были загружены правильно. Я также сопоставил TopologyRDD со списком только для...

862 просмотров

java apache-spark apache-spark-sql spark-streaming spark-dataframe

26.06.2023

Scala java.lang.String не может быть преобразован в java.lang. Двойная ошибка при преобразовании кадра данных двойного типа в LabeledPoint в Spark

У меня есть набор данных переменных 2002 года. Все переменные числовые. Сначала я прочитал набор данных для Spark 1.5.0 и создал кадр данных Double Type, следуя инструкции здесь . Затем я преобразовал фрейм данных в LabeledPoint, следуя...

7347 просмотров

null apache-spark scala type-conversion spark-dataframe

09.07.2022

Совокупность фреймов данных Spark по нескольким столбцам

Actually I am working on pyspark code. My dataframe is +-------+--------+--------+--------+--------+ |element|collect1|collect2|collect3|collect4| +-------+--------+--------+--------+--------+ |A1 | 1.02 | 2.6 | 5.21 | 3.6 | |A2 |...

3337 просмотров

pyspark apache-spark-sql spark-dataframe

26.09.2022

Преобразование значений строки в массив столбцов в искровом фрейме данных

Я работаю над искровыми фреймами данных, и мне нужно сделать группу по столбцу и преобразовать значения столбца сгруппированных строк в массив элементов в качестве нового столбца. Пример : Input: employee | Address ------------------ Micheal |...

12718 просмотров

apache-spark scala spark-dataframe

28.10.2022

Фильтрация строк на основе значений последующих строк в искровом фрейме данных

Мне нужно отфильтровать строки на основе значений последующих строк. Вот пример кадра данных inputFrame | id|value|sorted| +---+-----+------+ | 3| 0| 6| | 3| 1| 5| | 3| 0| 7| | 4| 1| 4| | 4| 0| 1| | 4|...

101 просмотров

apache-spark scala spark-dataframe

14.04.2023

Как работать с потоковыми данными/журналами в реальном времени с помощью искровой потоковой передачи?

Я новичок в Spark и Scala. Я хочу реализовать Spark Consumer в РЕАЛЬНОМ ВРЕМЕНИ, который мог бы считывать сетевые журналы каждую минуту [извлекая около 1 ГБ строк журнала JSON в минуту] из Kafka Publisher и, наконец, сохранять агрегированные...

1173 просмотров

apache-spark apache-spark-sql spark-streaming spark-dataframe

19.12.2022

Как получить такие метрики, как размер вывода и записи, написанные из пользовательского интерфейса Spark?

Как мне собрать эти метрики на консоли (Spark Shell или Spark submit job) сразу после выполнения задачи или задания. Мы используем Spark для загрузки данных из Mysql в Cassandra, и он довольно большой (например: ~ 200 ГБ и 600 млн строк). Когда...

3762 просмотров

apache-spark apache-spark-sql spark-cassandra-connector codahale-metrics spark-dataframe

29.07.2022

Spark SQL, например, не возвращает результатов. Искра версии 1.5.1/1.5.2 с использованием sqlContext select

Не похоже, что spark sql с ульем поддерживает «sql как». Вот пример кода, который я использую для тестирования в spark-shell case class Department(id: String, name: String) val department1 = new Department("123456", "Computer Science") val...

31 просмотров

apache-spark apache-spark-sql apache-spark-1.5 spark-dataframe

11.10.2022

Самый быстрый способ проверить, пуст ли DataFrame (Scala)?

Как быстрее всего проверить, пуст ли DataFrame( Scala )? Я использую DF.limit(1).rdd.isEmpty , быстрее, чем DF.rdd.isEmpty, но не идеально. Есть ли лучший способ сделать это?

7241 просмотров

apache-spark apache-spark-sql scala spark-dataframe

15.09.2022

Почему мое приложение Spark работает только в одном исполнителе?

Я все еще довольно новичок в Spark, но мне удалось создать приложение Spark, которое мне нужно, чтобы иметь возможность повторно обрабатывать данные с нашего SQL Server с помощью драйверов JDBC (мы удаляем дорогие SP), приложение загружает несколько...

2109 просмотров

apache-spark amazon-emr spark-dataframe

29.10.2022