Как прочитать csv и преобразовать в RDD в sparkR

Поскольку я программист R, я хочу использовать R в качестве интерфейса для искры, с пакетом sparkR, который я установил sparkR в R.

Я новичок в sparkR. Я хочу выполнить некоторые операции с определенными данными в записи CSV. Я пытаюсь прочитать файл csv и преобразовать его в rdd.

This is the code i did:
sc <- sparkR.init(master="local") # created spark content
data <- read.csv(sc, "/home/data1.csv")
#It throws an error, to use read.table

Data i have to load and convert - http://i.stack.imgur.com/sj78x.png

if am wrong, how to read this data in csv and convert to RDD in sparkR

ТИА


person Arun Gunalan    schedule 23.03.2015    source источник


Ответы (3)


Я считаю, что проблема в строке заголовка, если убрать эту строку, должно работать.

Как преобразовать файл csv в rdd

--отредактировано--

С помощью этого кода вы можете протестировать Sparkr с CSV, но вам нужно удалить строку заголовка в файле CSV.

lines <- textFile(sc, "/home/data1.csv") 
csvElements <- lapply(lines, function(line) { 
#line represent each CSV line i. e. strsplit(line, ",") is useful 
})
person Alvaro Agea    schedule 23.03.2015
comment
Спасибо за ваш ответ, я хочу код в R, если возможно, вы можете написать код и показать. - person Arun Gunalan; 23.03.2015
comment
Арун: Я думаю, что @Alvaro говорит, что вы должны удалить заголовок файла CSV при его экспорте, прежде чем читать его. - person pconcepcion; 23.03.2015
comment
строки ‹- textFile(sc, /home/data1.csv) csvElements ‹- lapply(lines, function(line) { #line представляет каждую строку CSV, т. е. strsplit(line, ,) полезен }) @pconception :) - person Alvaro Agea; 23.03.2015

В последней версии SparkR (2.0+)

read.df(path, source = "csv")

В Спарке 1.x

read.df(sc, path, source = "com.databricks.spark.csv")

с

spark.jars.packages  com.databricks:spark-csv_2.10:1.4.0
person user8947768    schedule 15.11.2017

Этот код ниже позволит вам прочитать csv с заголовком. Всего наилучшего

val csvrdd = spark.read.options(“header”,”true”).csv(filename)
person maxmithun    schedule 15.11.2017