Come si carica il file csv in SparkR su RStudio? Di seguito sono riportati i passaggi che dovevo eseguire per eseguire SparkR su RStudio. Ho usato read.df per leggere .csv non so in quale altro modo scrivere questo. Non sono sicuro se questo passaggio è considerato per creare RDD.Come caricare il file csv in SparkR su RStudio?
#Set sys environment variables
Sys.setenv(SPARK_HOME = "C:/Users/Desktop/spark/spark-1.4.1-bin-hadoop2.6")
.libPaths(c(file.path(Sys.getenv("SPARK_HOME"), "R", "lib"), .libPaths()))
#Sys.setenv('SPARKR_SUBMIT_ARGS'='"--packages" "com.databricks:spark-csv_2.10:1.0.3" "sparkr-shell"')
#Load libraries
library(SparkR)
library(magrittr)
sc <- sparkR.init(master="local")
sc <- sparkR.init()
sc <- sparkR.init(sparkPackages="com.databricks:spark-csv_2.11:1.0.3")
sqlContext <- sparkRSQL.init(sc)
data <- read.df(sqlContext, "C:/Users/Desktop/DataSets/hello_world.csv", "com.databricks.spark.csv", header="true")
sto ottenendo errore:
Error in writeJobj(con, object) : invalid jobj 1
Ho provato nuova scintilla-csv dall'alto. Ora quando eseguo i dati <- read.df, ottengo questo errore: Error: returnStatus == 0 non è TRUE. – sharp
Potresti fornire uno stacktrace completo? – zero323
Ti riferisci alle uscite della console R? – sharp