Wie CSV-Datei in SparkR auf RStudio laden?

Wie laden Sie CSV-Datei in SparkR auf RStudio? Im Folgenden sind die Schritte aufgeführt, die ich ausführen musste, um SparkR auf RStudio auszuführen. Ich habe read.df verwendet, um .csv nicht sicher zu lesen, wie man das sonst schreibt. Nicht sicher, ob dieser Schritt RDDs erstellt wird.Wie CSV-Datei in SparkR auf RStudio laden?

#Set sys environment variables 
Sys.setenv(SPARK_HOME = "C:/Users/Desktop/spark/spark-1.4.1-bin-hadoop2.6") 
.libPaths(c(file.path(Sys.getenv("SPARK_HOME"), "R", "lib"), .libPaths())) 

#Sys.setenv('SPARKR_SUBMIT_ARGS'='"--packages" "com.databricks:spark-csv_2.10:1.0.3" "sparkr-shell"') 

#Load libraries 
library(SparkR) 
library(magrittr) 

sc <- sparkR.init(master="local") 
sc <- sparkR.init() 
sc <- sparkR.init(sparkPackages="com.databricks:spark-csv_2.11:1.0.3") 
sqlContext <- sparkRSQL.init(sc) 

data <- read.df(sqlContext, "C:/Users/Desktop/DataSets/hello_world.csv", "com.databricks.spark.csv", header="true")

Ich erhalte Fehler:

Error in writeJobj(con, object) : invalid jobj 1

Quelle

2015-09-30 sharp

Funken 2.0.0+:

Sie können CSV-Datenquelle verwenden:

loadDF(sqlContext, path="some_path", source="csv", header="true")

ohne Belastung spark-csv.

Ursprüngliche Antwort:

Soweit ich kann Ihnen sagen, eine falsche Version von spark-csv verwenden. Vordefinierte Versionen von Spark verwenden Scala 2.10, aber Sie verwenden Spark CSV für Scala 2.11. Versuchen Sie stattdessen:

sc <- sparkR.init(sparkPackages="com.databricks:spark-csv_2.10:1.2.0")

Quelle

2015-09-30 19:26:17 zero323

Ich versuchte neue Funken-csv von oben. Jetzt, wenn ich Daten ausführen <- read.df, erhalte ich diesen Fehler: Fehler: returnStatus == 0 ist nicht wahr. – sharp

Können Sie einen vollständigen StackTrace bereitstellen? – zero323

Beziehen Sie sich auf R-Konsolenausgänge? – sharp

ich dieses Problem erfolgreich zu lösen, indem die commons-csv-1.2.jar zusammen mit dem Funken csv-Paket bereitstellt.

Scheinbar verwendet Spark-CSV Commons-CSV, ist aber nicht Paket mit ihm.

Das folgende SPARKR_SUBMIT_ARGS löste das Problem (ich benutze --jars statt --packages).

Sys.setenv('SPARKR_SUBMIT_ARGS'='"--jars" "/usr/lib/spark-1.5.1-bin-hadoop2.6/lib/spark-csv_2.11-1.2.0.jar,/usr/lib/spark-1.5.1-bin-hadoop2.6/lib/commons-csv-1.2.jar" "sparkr-shell"')

In der Tat, der eher obskure Fehler

Error in writeJobj(con, object) : invalid jobj 1

ist klarer den R-Shell direkt anstelle von R-Studio unter Verwendung und klar Zustand

java.lang.NoClassDefFoundError: org/apache/commons/csv/CSVFormat

Die benötigte commons-csv Bechergefäß finden Sie hier: https://commons.apache.org/proper/commons-csv/download_csv.cgi

Quelle

2015-10-07 11:25:37 loicmathieu

Ich schätze jeden Input und Lösungen !!! Ich habe eine andere Möglichkeit gefunden, eine .csv-Datei in SparkR RStudio zu laden. Hier ist es:

#set sc 
sc <- sparkR.init(master = "local") 
sqlContext <- sparkRSQL.init(sc) 

#load .csv 
patients <- read.csv("C:/...") #Insert your .csv file path 

df <- createDataFrame(sqlContext, patients) 
df 
head(df) 
str(df)

Quelle

2015-10-09 14:20:15 sharp

Ihre Lösung funktioniert, ist aber nicht skalierbar: Wenn Ihr Patienten-Set nicht in den Speicher passt, können Sie R nicht laden und in SparkR umwandeln, aber Sie sollten es immer noch direkt in SparkR laden können . –

Guter Punkt. Ich bin darauf gestoßen. Mit den Antworten des Benutzers unten erhalte ich jedoch Fehler. Ich versuche zu sehen, wie ich die Daten direkt in SparkR laden kann. – sharp

Die Sys.setenv ('SPARKR_SUBMIT_ARGS' = '"- Pakete" ... funktioniert gut für mich. –

Wie CSV-Datei in SparkR auf RStudio laden?

Antwort

Verwandte Themen