Вопросы по теме 'spark-dataframe'
Как указать отсутствующее значение в кадре данных
Я пытаюсь загрузить CSV-файл во фрейм данных Spark с помощью spark-csv [1], используя блокнот Apache Zeppelin, и при загрузке числового поля, которое не имеет значения, синтаксический анализатор не работает для этой строки, и строка пропускается.
Я...
3648 просмотров
schedule
21.09.2022
Как можно добавить новый столбец в существующий фрейм данных в Spark SQL
Я использую API DataFrame .
У меня есть существующий DataFrame и объект List (также можно использовать Array). Как можно добавить этот список в существующий DataFrame в качестве нового столбца? Должен ли я использовать класс Column для этого?
6888 просмотров
schedule
11.09.2022
это произошло с java.sql.SQLException: не найден подходящий драйвер для jdbc: oracle: @ 192.164.6.77: 1521: BDSS при искровом подключении оракула
следующий мой код.
во-первых,
./spark-shell --master spark://172.11.11.11:7077 --jars /opt/beh/bin/ojdbc14.jar
во-вторых,
`import java.util.Properties`
`val sqlContext = new org.apache.spark.sql.SQLContext(sc)`
`val properties = new...
547 просмотров
schedule
26.12.2022
sqlContext.createDataframe из строки со схемой. pyspark: TypeError: IntegerType не может принимать объект типа ‹типа «юникод»›
Потратив много времени на выяснение, почему я получаю следующую ошибку
pyspark: TypeError: IntegerType can not accept object in type <type 'unicode'>
при попытке создать фрейм данных на основе строк и схемы я заметил следующее:...
9312 просмотров
schedule
22.10.2022
как создать EdgeRDD из фрейма данных в Spark
У меня есть фрейм данных в искре. Каждая строка представляет человека, и я хочу получить возможные связи между ними. Правило наличия ссылки состоит в том, что для каждой возможной пары, если они имеют одинаковую prop1:String и абсолютная разница...
1609 просмотров
schedule
12.02.2023
Spark 1.6: java.lang.IllegalArgumentException: spark.sql.execution.id уже установлен
Я использую spark 1.6 и сталкиваюсь с проблемой выше, когда запускаю следующий код:
// Imports
import org.apache.spark.sql.hive.HiveContext
import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.sql.SaveMode
import...
4656 просмотров
schedule
04.04.2023
Повторное использование объединенного фрейма данных в Spark
Я запускаю HDFS и Spark локально и пытаюсь понять, как работает постоянство Spark. Моя цель — сохранить объединенный набор данных в памяти, а затем выполнять к нему запросы на лету. Однако мои запросы, похоже, повторяют соединение, а не просто...
2249 просмотров
schedule
10.07.2022
Аккумуляторы искры: Правильный аккумулятор иногда много или всегда один?
Я пытаюсь использовать аккумулятор Spark для удаления группы по запросу с низкой производительностью.
import org.apache.spark._
object CountPairsParam extends AccumulatorParam[Map[Int, Set[Int]]] {
def zero(initialValue: Map[Int, Set[Int]]):...
934 просмотров
schedule
19.02.2023
Почему задание Spark завершается с ошибкой с кодом выхода: 52
У меня был сбой задания Spark с такой трассировкой:
./containers/application_1455622885057_0016/container_1455622885057_0016_01_000001/stderr-Container id: container_1455622885057_0016_01_000008...
17149 просмотров
schedule
27.08.2022
Spark.sql выбирает строки, у которых нет соответствующего столбца в другой таблице
У меня есть кадр данных, называемый ребрами, который выглядит так:
+------+------+-------------------+
| src| dst| mean_affinity|
+------+------+-------------------+
| [78]| [81]|...
851 просмотров
schedule
06.09.2022
Spark: сопоставление RDD с RDD, возвращающее исключение нулевого указателя
В моей логике я пытаюсь сопоставить JDBCRDD - TopologyRDD с JavaBean JavaRDD.
TopologyRDD.count() возвращает ПРАВИЛЬНОЕ количество строк, поэтому я знаю, что данные были загружены правильно. Я также сопоставил TopologyRDD со списком только для...
862 просмотров
schedule
26.06.2023
Scala java.lang.String не может быть преобразован в java.lang. Двойная ошибка при преобразовании кадра данных двойного типа в LabeledPoint в Spark
У меня есть набор данных переменных 2002 года. Все переменные числовые. Сначала я прочитал набор данных для Spark 1.5.0 и создал кадр данных Double Type, следуя инструкции здесь . Затем я преобразовал фрейм данных в LabeledPoint, следуя...
7347 просмотров
schedule
09.07.2022
Совокупность фреймов данных Spark по нескольким столбцам
Actually I am working on pyspark code. My dataframe is
+-------+--------+--------+--------+--------+
|element|collect1|collect2|collect3|collect4|
+-------+--------+--------+--------+--------+
|A1 | 1.02 | 2.6 | 5.21 | 3.6 |
|A2 |...
3337 просмотров
schedule
26.09.2022
Преобразование значений строки в массив столбцов в искровом фрейме данных
Я работаю над искровыми фреймами данных, и мне нужно сделать группу по столбцу и преобразовать значения столбца сгруппированных строк в массив элементов в качестве нового столбца. Пример :
Input:
employee | Address
------------------
Micheal |...
12718 просмотров
schedule
28.10.2022
Фильтрация строк на основе значений последующих строк в искровом фрейме данных
Мне нужно отфильтровать строки на основе значений последующих строк. Вот пример кадра данных
inputFrame
| id|value|sorted|
+---+-----+------+
| 3| 0| 6|
| 3| 1| 5|
| 3| 0| 7|
| 4| 1| 4|
| 4| 0| 1|
| 4|...
101 просмотров
schedule
14.04.2023
Как работать с потоковыми данными/журналами в реальном времени с помощью искровой потоковой передачи?
Я новичок в Spark и Scala.
Я хочу реализовать Spark Consumer в РЕАЛЬНОМ ВРЕМЕНИ, который мог бы считывать сетевые журналы каждую минуту [извлекая около 1 ГБ строк журнала JSON в минуту] из Kafka Publisher и, наконец, сохранять агрегированные...
1173 просмотров
schedule
19.12.2022
Как получить такие метрики, как размер вывода и записи, написанные из пользовательского интерфейса Spark?
Как мне собрать эти метрики на консоли (Spark Shell или Spark submit job) сразу после выполнения задачи или задания.
Мы используем Spark для загрузки данных из Mysql в Cassandra, и он довольно большой (например: ~ 200 ГБ и 600 млн строк). Когда...
3762 просмотров
schedule
29.07.2022
Spark SQL, например, не возвращает результатов. Искра версии 1.5.1/1.5.2 с использованием sqlContext select
Не похоже, что spark sql с ульем поддерживает «sql как». Вот пример кода, который я использую для тестирования в spark-shell
case class Department(id: String, name: String)
val department1 = new Department("123456", "Computer Science")
val...
31 просмотров
schedule
11.10.2022
Самый быстрый способ проверить, пуст ли DataFrame (Scala)?
Как быстрее всего проверить, пуст ли DataFrame( Scala )? Я использую DF.limit(1).rdd.isEmpty , быстрее, чем DF.rdd.isEmpty, но не идеально. Есть ли лучший способ сделать это?
7241 просмотров
schedule
15.09.2022
Почему мое приложение Spark работает только в одном исполнителе?
Я все еще довольно новичок в Spark, но мне удалось создать приложение Spark, которое мне нужно, чтобы иметь возможность повторно обрабатывать данные с нашего SQL Server с помощью драйверов JDBC (мы удаляем дорогие SP), приложение загружает несколько...
2109 просмотров
schedule
29.10.2022