TypeError: объект 'Builder' не может быть вызван структурированная потоковая передача Spark

При запуске примера, приведенного в руководстве по программированию [ссылка] для структурированной потоковой передачи python Spark
http://spark.apache.org/docs/latest/structured-streaming-programming-guide.html

Я получаю сообщение об ошибке:
TypeError: объект "Строитель" не вызывается

from pyspark.sql import SparkSession
from pyspark.sql.functions import explode
from pyspark.sql.functions import split

spark = SparkSession.builder()\
    .appName("StructuredNetworkWordCount")\
    .getOrCreate()

# Create DataFrame representing the stream of input lines from connection to localhost:9999
lines = spark\
   .readStream\
   .format('socket')\
   .option('host', 'localhost')\
   .option('port', 9999)\
   .load()

# Split the lines into words
words = lines.select(
   explode(
       split(lines.value, ' ')
   ).alias('word')
)

# Generate running word count
wordCounts = words.groupBy('word').count()

# Start running the query that prints the running counts to the console
query = wordCounts\
    .writeStream\
    .outputMode('complete')\
    .format('console')\
    .start()

query.awaitTermination()

Ошибка :

omkar@rudra:~/thesis/backUp$ spark-submit structured.py 
Traceback (most recent call last):
  File "/home/omkar/thesis/backUp/structured.py", line 8, in <module>
    spark = SparkSession.builder()\
TypeError: 'Builder' object is not callable

person OSK    schedule 27.12.2016    source источник


Ответы (1)


Для

spark = SparkSession.builder()\
    .appName("StructuredNetworkWordCount")\
    .getOrCreate()

измените .builder () на .builder как:

spark = SparkSession.builder\
    .appName("StructuredNetworkWordCount")\
    .getOrCreate()

Источник: https://issues.apache.org/jira/browse/SPARK-18426

person OSK    schedule 27.12.2016