Публикации по теме apache-spark-2.0

Вопросы по теме 'apache-spark-2.0'

в spark 1.6.1 благодаря этому методу Как преобразовать RDD в DStream в JAVA? мне удалось создать поток в очереди из текстовых файлов следующим образом: List<JavaRDD<String>> inputRdds = Arrays.stream(inputDirFile.listFiles((file)...

98 просмотров

java apache-spark-2.0

14.03.2023

Spark step на EMR просто зависает как Running после завершения записи в S3

Запуск задания PySpark 2 на EMR 5.1.0 в качестве шага. Даже после завершения сценария с файлом _SUCCESS , записанным в S3, и пользовательским интерфейсом Spark, показывающим задание как завершенное, EMR по-прежнему показывает шаг как «Выполняется»....

4007 просмотров

amazon-web-services amazon-s3 apache-spark pyspark apache-spark-2.0

21.02.2023

Cassandra выбирает запрос нескольких параметров

Использование casssandra 2.28, java-connector3, sparks2.0. Я пытаюсь написать простой запрос с несколькими параметрами выбора - не могу правильно понять синтаксис. Один параметр работает CassandraJavaRDD<CassandraRow> rdd = javaFunc...

640 просмотров

datastax-java-driver apache-spark-2.0 cassandra-2.0

18.09.2022

Как запустить приложение весенней загрузки в кластере Spark

Мы создали приложение Jar of Spark для загрузки java spring. ./spark-submit --class com.recordlinkage.coreTest.IntegratedRecordLinkageTest --deploy-mode cluster --master...

2791 просмотров

apache-spark apache-spark-sql apache-spark-2.0

17.12.2022

Как использовать набор данных для группировки

У меня есть просьба использовать для этого rdd ： val test = Seq(("New York", "Jack"), ("Los Angeles", "Tom"), ("Chicago", "David"), ("Houston", "John"),...

17541 просмотров

apache-spark dataset apache-spark-2.0

10.07.2022

агрегатная функция в Apache Spark

Мне нужно агрегировать набор данных на основе временного интервала в 1 минуту. Когда я пытаюсь это сделать, возникает ошибка: Мой набор данных выглядит так scala> newVX.show +--------------------+-----+ | datetime|value|...

1151 просмотров

apache-spark apache-spark-sql scala aggregate apache-spark-2.0

13.09.2023

Куду с PySpark2: ошибка с KuduStorageHandler

Я пытаюсь прочитать данные, хранящиеся как Kudu, с помощью PySpark 2.1.0. >>> from os.path import expanduser, join, abspath >>> from pyspark.sql import SparkSession >>> from pyspark.sql import Row >>> spark =...

1888 просмотров

hive cloudera-cdh apache-spark-2.0 pyspark-sql apache-kudu

07.01.2023

Экономичный драйвер OutOfMemory при одновременном выполнении нескольких запросов Hive

мы используем Spark2 Thrift для выполнения запросов Hive. Thrift входит в состав HDP 2.6, а наша искровая версия — 2.1.0.2.6.0.3-8. Чем больше запросов мы выполняем одновременно, тем быстрее мы сталкиваемся с OOM в драйвере. Эти запросы также...

724 просмотров

out-of-memory thrift apache-spark-2.0

04.05.2022

Набор данных Spark или фрейм данных для агрегирования

У нас есть кластер MapR с Spark версии 2.0. Мы пытаемся измерить разницу в производительности запроса Hive, который в настоящее время выполняется на движке TEZ, а затем запускает его на Spark-sql, просто написав запрос sql в файле .hql и затем вызвав...

380 просмотров

databricks apache-spark-sql apache-spark-dataset apache-spark-2.0 spark-dataframe

12.07.2023

Ошибка запуска Pyspark — ошибка hive.HiveSessionState

Я установил Spark 2.1 с Cloudera. Когда я запускаю spark-shell из /usr/bin/spark2-shell, он запускается (со scala). Когда я запускаю Pyspark, я получаю эту проблему sudo -u hdfs ./pyspark2 Я получил: java.sql.SQLException: Unable to...

127 просмотров

apache-spark pyspark hive cloudera apache-spark-2.0

07.11.2022

Ошибка инициализации SparkSession — невозможно использовать spark.read

Я попытался создать отдельную программу PySpark, которая считывает csv и сохраняет его в таблице кустов. У меня возникли проблемы с настройкой сеансов Spark, конференций и объектов контекстов. Вот мой код: from pyspark import SparkConf,...

5779 просмотров

python apache-spark pyspark apache-spark-sql apache-spark-2.0

31.05.2023

Ошибка при запуске Spark на автономном кластере

Я пытаюсь запустить простой код Spark в автономном кластере. Ниже приведен код: from pyspark import SparkConf,SparkContext if __name__ == "__main__": conf =...

1319 просмотров

pyspark apache-spark-2.0

23.05.2022

Pyspark: итеративная запись результатов UDF обратно в фрейм данных не дает ожидаемых результатов

Я все еще новичок в pyspark, и я пытаюсь оценить функцию и итеративно создавать столбцы с помощью UDF. Ниже приведена функция: def get_temp(df): l=['temp1','temp2','temp3'] s=[0] pt = [0] start = [0] end = [0]...

203 просмотров

apache-spark pyspark apache-spark-2.0 pyspark-sql spark-dataframe

08.12.2023

Узи не удалось запустить действие Spark2

Использование Амбари 2.6, HDP-2.6.4 Я следил за руководство по созданию общей библиотеки spark2 и удалению дубликатов jar из папок spark2 и oozie, но по-прежнему возникает следующая ошибка: иногда: 2018-03-23 11:36:55,071 ERROR...

340 просмотров

apache-spark-2.0 oozie

07.06.2024

Apache Spark - функция карты, возвращающая пустой набор данных в java

Мой код: finalJoined.show(); Encoder<Row> rowEncoder = Encoders.bean(Row.class); Dataset<Row> validatedDS = finalJoined.map(row -> validationRowMap(row), rowEncoder); validatedDS.show();...

600 просмотров

apache-spark apache-spark-dataset apache-spark-2.0

31.03.2023

Разделите Spark DataFrame на два DataFrames (70% и 30%) на основе столбца id, сохранив порядок

У меня есть фрейм данных искры, который похож на id start_time feature 1 01-01-2018 3.567 1 01-02-2018 4.454 1 01-03-2018 6.455 2 01-02-2018 343.4 2 01-08-2018 45.4 3 02-04-2018 43.56 3 02-07-2018 34.56 3...

2460 просмотров

apache-spark pyspark apache-spark-2.0

07.06.2023

Проблема с spark sql с указанными столбцами

мы пытаемся скопировать базу данных Oracle в улей. Мы получаем запросы от oracle и запускаем их в улье. Итак, получаем их в таком формате: INSERT INTO schema.table(col1,col2) VALUES ('val','val'); Хотя этот запрос работает напрямую в Hive,...

819 просмотров

sql apache-spark apache-spark-sql apache-spark-2.0

11.05.2023

com.mysql.jdbc.Driver не найден в spark2 scala

Я использую Jupyter Notebook с ядром Scala, ниже приведен мой код для импорта таблицы mysql в фрейм данных: val sql="""select * from customer""" val df_customer = spark.read .format("jdbc") .option("url", "jdbc:mysql://localhost:3306/ccfd")...

450 просмотров

mysql apache-spark-2.0

12.08.2022

Изменение пользователя контекста сервера заданий Spark во время выполнения

Как изменить пользователя контекста, созданного на сервере заданий Spark? Я хочу изменить пользователя, которого я получаю на sparkSession.sparkContext.sparkUser();

62 просмотров

apache-spark apache-spark-2.0 spark-jobserver

20.03.2023

В кадре данных Spark, как транспонировать строки в столбцы?

это может быть очень простой вопрос. Я хочу перенести все строки фрейма данных в столбцы. Я хочу преобразовать этот df, как показано ниже, вывести DF. Каковы способы в искре для достижения этого? Примечание. У меня есть один столбец во входном DF...

59 просмотров

apache-spark apache-spark-sql apache-spark-2.0

21.07.2023