Я попытался создать отдельную программу PySpark, которая считывает csv и сохраняет его в таблице кустов. У меня возникли проблемы с настройкой сеансов Spark, конференций и объектов контекстов. Вот мой код:
from pyspark import SparkConf, SparkContext
from pyspark.sql import SQLContext, SparkSession
from pyspark.sql.types import *
conf = SparkConf().setAppName("test_import")
sc = SparkContext(conf=conf)
sqlContext = SQLContext(sc)
spark = SparkSession.builder.config(conf=conf)
dfRaw = spark.read.csv("hdfs:/user/..../test.csv",header=False)
dfRaw.createOrReplaceTempView('tempTable')
sqlContext.sql("create table customer.temp as select * from tempTable")
И я получаю ошибку:
dfRaw = spark.read.csv("hdfs:/user/../test.csv",header=False) AttributeError: объект "Builder" не имеет атрибута "read"
Как правильно настроить объект сеанса искры для использования команды read.csv? Кроме того, может ли кто-нибудь объяснить разницу между объектами Session, Context и Conference?