Вопросы по теме 'apache-spark-2.0'

поток в очереди в spark2
в spark 1.6.1 благодаря этому методу Как преобразовать RDD в DStream в JAVA? мне удалось создать поток в очереди из текстовых файлов следующим образом: List<JavaRDD<String>> inputRdds = Arrays.stream(inputDirFile.listFiles((file)...
98 просмотров
schedule 14.03.2023

Spark step на EMR просто зависает как Running после завершения записи в S3
Запуск задания PySpark 2 на EMR 5.1.0 в качестве шага. Даже после завершения сценария с файлом _SUCCESS , записанным в S3, и пользовательским интерфейсом Spark, показывающим задание как завершенное, EMR по-прежнему показывает шаг как «Выполняется»....
4007 просмотров

Cassandra выбирает запрос нескольких параметров
Использование casssandra 2.28, java-connector3, sparks2.0. Я пытаюсь написать простой запрос с несколькими параметрами выбора - не могу правильно понять синтаксис. Один параметр работает CassandraJavaRDD<CassandraRow> rdd = javaFunc...
640 просмотров

Как запустить приложение весенней загрузки в кластере Spark
Мы создали приложение Jar of Spark для загрузки java spring. ./spark-submit --class com.recordlinkage.coreTest.IntegratedRecordLinkageTest --deploy-mode cluster --master...
2791 просмотров

Как использовать набор данных для группировки
У меня есть просьба использовать для этого rdd : val test = Seq(("New York", "Jack"), ("Los Angeles", "Tom"), ("Chicago", "David"), ("Houston", "John"),...
17541 просмотров
schedule 10.07.2022

агрегатная функция в Apache Spark
Мне нужно агрегировать набор данных на основе временного интервала в 1 минуту. Когда я пытаюсь это сделать, возникает ошибка: Мой набор данных выглядит так scala> newVX.show +--------------------+-----+ | datetime|value|...
1151 просмотров

Куду с PySpark2: ошибка с KuduStorageHandler
Я пытаюсь прочитать данные, хранящиеся как Kudu, с помощью PySpark 2.1.0. >>> from os.path import expanduser, join, abspath >>> from pyspark.sql import SparkSession >>> from pyspark.sql import Row >>> spark =...
1888 просмотров

Экономичный драйвер OutOfMemory при одновременном выполнении нескольких запросов Hive
мы используем Spark2 Thrift для выполнения запросов Hive. Thrift входит в состав HDP 2.6, а наша искровая версия — 2.1.0.2.6.0.3-8. Чем больше запросов мы выполняем одновременно, тем быстрее мы сталкиваемся с OOM в драйвере. Эти запросы также...
724 просмотров
schedule 04.05.2022

Набор данных Spark или фрейм данных для агрегирования
У нас есть кластер MapR с Spark версии 2.0. Мы пытаемся измерить разницу в производительности запроса Hive, который в настоящее время выполняется на движке TEZ, а затем запускает его на Spark-sql, просто написав запрос sql в файле .hql и затем вызвав...
380 просмотров

Ошибка запуска Pyspark — ошибка hive.HiveSessionState
Я установил Spark 2.1 с Cloudera. Когда я запускаю spark-shell из /usr/bin/spark2-shell, он запускается (со scala). Когда я запускаю Pyspark, я получаю эту проблему sudo -u hdfs ./pyspark2 Я получил: java.sql.SQLException: Unable to...
127 просмотров

Ошибка инициализации SparkSession — невозможно использовать spark.read
Я попытался создать отдельную программу PySpark, которая считывает csv и сохраняет его в таблице кустов. У меня возникли проблемы с настройкой сеансов Spark, конференций и объектов контекстов. Вот мой код: from pyspark import SparkConf,...
5779 просмотров

Ошибка при запуске Spark на автономном кластере
Я пытаюсь запустить простой код Spark в автономном кластере. Ниже приведен код: from pyspark import SparkConf,SparkContext if __name__ == "__main__": conf =...
1319 просмотров
schedule 23.05.2022

Pyspark: итеративная запись результатов UDF обратно в фрейм данных не дает ожидаемых результатов
Я все еще новичок в pyspark, и я пытаюсь оценить функцию и итеративно создавать столбцы с помощью UDF. Ниже приведена функция: def get_temp(df): l=['temp1','temp2','temp3'] s=[0] pt = [0] start = [0] end = [0]...
203 просмотров

Узи не удалось запустить действие Spark2
Использование Амбари 2.6, HDP-2.6.4 Я следил за руководство по созданию общей библиотеки spark2 и удалению дубликатов jar из папок spark2 и oozie, но по-прежнему возникает следующая ошибка: иногда: 2018-03-23 11:36:55,071 ERROR...
340 просмотров
schedule 07.06.2024

Apache Spark - функция карты, возвращающая пустой набор данных в java
Мой код: finalJoined.show(); Encoder<Row> rowEncoder = Encoders.bean(Row.class); Dataset<Row> validatedDS = finalJoined.map(row -> validationRowMap(row), rowEncoder); validatedDS.show();...
600 просмотров

Разделите Spark DataFrame на два DataFrames (70% и 30%) на основе столбца id, сохранив порядок
У меня есть фрейм данных искры, который похож на id start_time feature 1 01-01-2018 3.567 1 01-02-2018 4.454 1 01-03-2018 6.455 2 01-02-2018 343.4 2 01-08-2018 45.4 3 02-04-2018 43.56 3 02-07-2018 34.56 3...
2460 просмотров
schedule 07.06.2023

Проблема с spark sql с указанными столбцами
мы пытаемся скопировать базу данных Oracle в улей. Мы получаем запросы от oracle и запускаем их в улье. Итак, получаем их в таком формате: INSERT INTO schema.table(col1,col2) VALUES ('val','val'); Хотя этот запрос работает напрямую в Hive,...
819 просмотров

com.mysql.jdbc.Driver не найден в spark2 scala
Я использую Jupyter Notebook с ядром Scala, ниже приведен мой код для импорта таблицы mysql в фрейм данных: val sql="""select * from customer""" val df_customer = spark.read .format("jdbc") .option("url", "jdbc:mysql://localhost:3306/ccfd")...
450 просмотров
schedule 12.08.2022

Изменение пользователя контекста сервера заданий Spark во время выполнения
Как изменить пользователя контекста, созданного на сервере заданий Spark? Я хочу изменить пользователя, которого я получаю на sparkSession.sparkContext.sparkUser();
62 просмотров

В кадре данных Spark, как транспонировать строки в столбцы?
это может быть очень простой вопрос. Я хочу перенести все строки фрейма данных в столбцы. Я хочу преобразовать этот df, как показано ниже, вывести DF. Каковы способы в искре для достижения этого? Примечание. У меня есть один столбец во входном DF...
59 просмотров