Вопросы по теме 'spark-structured-streaming'

XML-файлы потоковой передачи Spark
У меня есть требование обрабатывать файлы xml, передаваемые в папку S3. В настоящее время я реализовал это следующим образом. Во-первых, прочитайте файлы, используя файловый поток Spark. val data = ssc.fileStream[LongWritable, Text,...
1950 просмотров

TypeError: объект 'Builder' не может быть вызван структурированная потоковая передача Spark
При запуске примера, приведенного в руководстве по программированию [ссылка] для структурированной потоковой передачи python Spark http://spark.apache.org/docs/latest/structured-streaming-programming-guide.html Я получаю сообщение об ошибке:...
4880 просмотров

Проблема со схемой соединителя структурированной потоковой передачи ApacheBahir в потоковой передаче ApacheSpark
Я пытаюсь подключить структурированный поток Apache Spark к теме MQTT (в данном случае IBM Watson IoT Platform на IBM Bluemix). Я создаю структурированный поток следующим образом: val df = spark.readStream...
258 просмотров

Spark Structured Stream получает сообщения только от одного раздела Kafka
У меня возникла ситуация, когда искра может транслировать и получать сообщения только из одного раздела темы Kafka 2-patition. Мои темы: C:\bigdata\kafka_2.11-0.10.1.1\bin\windows>kafka-topics --create --zookeeper localhost:2181 --partitions 2...
1629 просмотров

Структурированная потоковая передача Spark ForeachWriter не может получить sparkContext
Я читаю данные JSON из очереди Kafka, используя структурированную потоковую передачу Spark, но мне нужно записать данные JSON в Elasticsearch. Однако я не могу получить sparkContext внутри ForeachWriter для преобразования JSON в RDD....
1841 просмотров

Структурированное потоковое хранилище Kafka Source Offset Storage
Я использую источник структурированной потоковой передачи для Kafka (руководство по интеграции ) , который, как указано, не фиксирует никакого смещения. Одна из моих целей - следить за ним (проверить, не отстает ли он и т. д.). Несмотря на то,...
2492 просмотров

Структурированная потоковая передача Spark для нескольких разделов в теме
Как мы структурируем JSON для нескольких разделов в структурированной потоковой передаче Spark. Приведенный ниже пример, который я вставил сюда только для одного раздела. Ценю вашу помощь. spark.readStream().format("kafka")...
393 просмотров

Spark Streaming IllegalStateException: этот потребитель уже закрыт
Итак, используя: - Spark Structured Streaming (2.1.0) - Kafka 0.10.2.0 - Scala 2.11 Я использую API по умолчанию от Kafka, поэтому в основном: val df = spark.readStream .format("kafka") .option(...) Настройка параметров (через SSL) и...
1514 просмотров

Почему spark-submit не работает с AnalysisException: kafka не является допустимым источником данных Spark SQL?
Я использую Spark 2.1.0 с Kafka 0.10.2.1. Я пишу приложение Spark, которое считывает наборы данных из темы Kafka. Код выглядит следующим образом: package com.example; import org.apache.spark.SparkConf; import...
1355 просмотров

Контрольная точка S3 со структурированной потоковой передачей
Я попробовал предложения, приведенные в Apache Spark (структурированная потоковая передача) : поддержка контрольных точек S3 Я все еще сталкиваюсь с этой проблемой. Ниже ошибка, которую я получаю 17/07/06 17:04:56 WARN FileSystem: "s3n" is...
1376 просмотров

Объединение кадра потоковых данных и кадра пакетных данных в структурированной потоковой передаче Spark
Как я могу объединить потоковый фрейм данных и пакетный фрейм данных вместе в Spark Structured Streaming?
1451 просмотров

Как обновить или частично обновить документы сценария в ElasticSearch с помощью Spark?
У меня есть псевдокод на питоне, который читает из потока Kafka и обновляет документы в Elasticsearch (увеличивая счетчик view , если документ уже существует. for message in consumer: msg = json.loads(message.value) print(msg) index...
949 просмотров

Как загрузить файлы tar.gz в потоковые наборы данных?
Я хотел бы выполнять потоковую передачу из файлов tar-gzip (tgz), которые включают мои фактические сохраненные данные в формате CSV. Мне уже удалось организовать структурированную потоковую передачу с помощью spark 2.2, когда мои данные поступают в...
2064 просмотров

Невозможно выполнить несколько запросов в структурированной потоковой передаче Spark.
Я создал пример кода для выполнения нескольких запросов. Но я получаю вывод только первого запроса. В журналах я вижу, что все запросы выполняются. Не знаю, что я делаю неправильно. public class A extends D implements Serializable { public...
614 просмотров

Левое внешнее соединение не выдает нулевые значения при объединении двух потоков в искровой структурированной потоковой передаче 2.3.0
Левое внешнее соединение двух потоков, не выводящее нулевые выходные данные. Он просто ждет, пока запись будет добавлена ​​в другой поток. Использование socketstream для проверки этого. В нашем случае мы хотим выдавать записи с нулевыми значениями,...
943 просмотров

Пул соединений Spark - правильный ли это подход
У меня есть задание Spark в Structured Streaming, которое использует данные из Kafka и сохраняет их в InfluxDB. Я реализовал механизм пула соединений следующим образом: object InfluxConnectionPool { val queue = new...
1382 просмотров

Условное развертывание в Spark Structured Streaming/Spark SQL
Я пытаюсь выполнить условный взрыв в Spark Structured Streaming. Например, мой потоковый фрейм данных выглядит следующим образом (здесь полностью собраны данные). Я хочу разбить массив сотрудников на отдельные строки массивов, когда contingent =...
1839 просмотров

искровый структурированный потоковый динамический строковый фильтр
Мы пытаемся использовать динамический фильтр для приложения со структурированной потоковой передачей. Допустим, у нас есть следующая псевдо-реализация приложения структурированной потоковой передачи Spark: spark.readStream()...
1807 просмотров

Как определить путь или имя файла приемника файлов со структурированной искрой?
Я использую искровую структурированную потоковую передачу для обработки данных из источника потоковых данных, и я использую приемник файлов. После обработки данные будут помещены в hdfs. У меня проблема в том, что выходной файл похож на...
2855 просмотров

Источник данных Spark Structured Streaming Kinesis
Можно ли использовать потоки Kinesis в качестве источника данных для структурированной потоковой передачи Spark? Я не могу найти ни одного доступного разъема.
1092 просмотров