Вопросы по теме 'apache-spark-2.0'
поток в очереди в spark2
в spark 1.6.1 благодаря этому методу Как преобразовать RDD в DStream в JAVA? мне удалось создать поток в очереди из текстовых файлов следующим образом:
List<JavaRDD<String>> inputRdds = Arrays.stream(inputDirFile.listFiles((file)...
98 просмотров
schedule
14.03.2023
Spark step на EMR просто зависает как Running после завершения записи в S3
Запуск задания PySpark 2 на EMR 5.1.0 в качестве шага. Даже после завершения сценария с файлом _SUCCESS , записанным в S3, и пользовательским интерфейсом Spark, показывающим задание как завершенное, EMR по-прежнему показывает шаг как «Выполняется»....
4007 просмотров
schedule
21.02.2023
Cassandra выбирает запрос нескольких параметров
Использование casssandra 2.28, java-connector3, sparks2.0.
Я пытаюсь написать простой запрос с несколькими параметрами выбора - не могу правильно понять синтаксис. Один параметр работает
CassandraJavaRDD<CassandraRow> rdd = javaFunc...
640 просмотров
schedule
18.09.2022
Как запустить приложение весенней загрузки в кластере Spark
Мы создали приложение Jar of Spark для загрузки java spring.
./spark-submit --class com.recordlinkage.coreTest.IntegratedRecordLinkageTest
--deploy-mode cluster
--master...
2791 просмотров
schedule
17.12.2022
Как использовать набор данных для группировки
У меня есть просьба использовать для этого rdd :
val test = Seq(("New York", "Jack"),
("Los Angeles", "Tom"),
("Chicago", "David"),
("Houston", "John"),...
17541 просмотров
schedule
10.07.2022
агрегатная функция в Apache Spark
Мне нужно агрегировать набор данных на основе временного интервала в 1 минуту. Когда я пытаюсь это сделать, возникает ошибка:
Мой набор данных выглядит так
scala> newVX.show
+--------------------+-----+
| datetime|value|...
1151 просмотров
schedule
13.09.2023
Куду с PySpark2: ошибка с KuduStorageHandler
Я пытаюсь прочитать данные, хранящиеся как Kudu, с помощью PySpark 2.1.0.
>>> from os.path import expanduser, join, abspath
>>> from pyspark.sql import SparkSession
>>> from pyspark.sql import Row
>>> spark =...
1888 просмотров
schedule
07.01.2023
Экономичный драйвер OutOfMemory при одновременном выполнении нескольких запросов Hive
мы используем Spark2 Thrift для выполнения запросов Hive.
Thrift входит в состав HDP 2.6, а наша искровая версия — 2.1.0.2.6.0.3-8.
Чем больше запросов мы выполняем одновременно, тем быстрее мы сталкиваемся с OOM в драйвере. Эти запросы также...
724 просмотров
schedule
04.05.2022
Набор данных Spark или фрейм данных для агрегирования
У нас есть кластер MapR с Spark версии 2.0. Мы пытаемся измерить разницу в производительности запроса Hive, который в настоящее время выполняется на движке TEZ, а затем запускает его на Spark-sql, просто написав запрос sql в файле .hql и затем вызвав...
380 просмотров
schedule
12.07.2023
Ошибка запуска Pyspark — ошибка hive.HiveSessionState
Я установил Spark 2.1 с Cloudera. Когда я запускаю spark-shell из /usr/bin/spark2-shell, он запускается (со scala). Когда я запускаю Pyspark, я получаю эту проблему
sudo -u hdfs ./pyspark2
Я получил:
java.sql.SQLException: Unable to...
127 просмотров
schedule
07.11.2022
Ошибка инициализации SparkSession — невозможно использовать spark.read
Я попытался создать отдельную программу PySpark, которая считывает csv и сохраняет его в таблице кустов. У меня возникли проблемы с настройкой сеансов Spark, конференций и объектов контекстов. Вот мой код:
from pyspark import SparkConf,...
5779 просмотров
schedule
31.05.2023
Ошибка при запуске Spark на автономном кластере
Я пытаюсь запустить простой код Spark в автономном кластере. Ниже приведен код:
from pyspark import SparkConf,SparkContext
if __name__ == "__main__":
conf =...
1319 просмотров
schedule
23.05.2022
Pyspark: итеративная запись результатов UDF обратно в фрейм данных не дает ожидаемых результатов
Я все еще новичок в pyspark, и я пытаюсь оценить функцию и итеративно создавать столбцы с помощью UDF. Ниже приведена функция:
def get_temp(df):
l=['temp1','temp2','temp3']
s=[0]
pt = [0]
start = [0]
end = [0]...
203 просмотров
schedule
08.12.2023
Узи не удалось запустить действие Spark2
Использование Амбари 2.6, HDP-2.6.4
Я следил за руководство по созданию общей библиотеки spark2 и удалению дубликатов jar из папок spark2 и oozie, но по-прежнему возникает следующая ошибка:
иногда:
2018-03-23 11:36:55,071 ERROR...
340 просмотров
schedule
07.06.2024
Apache Spark - функция карты, возвращающая пустой набор данных в java
Мой код:
finalJoined.show();
Encoder<Row> rowEncoder = Encoders.bean(Row.class);
Dataset<Row> validatedDS = finalJoined.map(row -> validationRowMap(row), rowEncoder);
validatedDS.show();...
600 просмотров
schedule
31.03.2023
Разделите Spark DataFrame на два DataFrames (70% и 30%) на основе столбца id, сохранив порядок
У меня есть фрейм данных искры, который похож на
id start_time feature
1 01-01-2018 3.567
1 01-02-2018 4.454
1 01-03-2018 6.455
2 01-02-2018 343.4
2 01-08-2018 45.4
3 02-04-2018 43.56
3 02-07-2018 34.56
3...
2460 просмотров
schedule
07.06.2023
Проблема с spark sql с указанными столбцами
мы пытаемся скопировать базу данных Oracle в улей. Мы получаем запросы от oracle и запускаем их в улье. Итак, получаем их в таком формате:
INSERT INTO schema.table(col1,col2) VALUES ('val','val');
Хотя этот запрос работает напрямую в Hive,...
819 просмотров
schedule
11.05.2023
com.mysql.jdbc.Driver не найден в spark2 scala
Я использую Jupyter Notebook с ядром Scala, ниже приведен мой код для импорта таблицы mysql в фрейм данных:
val sql="""select * from customer"""
val df_customer = spark.read
.format("jdbc")
.option("url", "jdbc:mysql://localhost:3306/ccfd")...
450 просмотров
schedule
12.08.2022
Изменение пользователя контекста сервера заданий Spark во время выполнения
Как изменить пользователя контекста, созданного на сервере заданий Spark? Я хочу изменить пользователя, которого я получаю на sparkSession.sparkContext.sparkUser();
62 просмотров
schedule
20.03.2023
В кадре данных Spark, как транспонировать строки в столбцы?
это может быть очень простой вопрос. Я хочу перенести все строки фрейма данных в столбцы. Я хочу преобразовать этот df, как показано ниже, вывести DF. Каковы способы в искре для достижения этого?
Примечание. У меня есть один столбец во входном DF...
59 просмотров
schedule
21.07.2023