2016-06-05 15 views

Antwort

4

DataFrame ist sicherlich nicht auf NoSQL-Datenquellen beschränkt. Parkett-, ORC- und JSON-Unterstützung wird nativ in 1.4 bis 1.6.1 bereitgestellt; Textgetrennte Dateien werden mit dem Paket spark-cvs unterstützt.

Wenn Sie Ihre tsv-Datei in HDFS bei/demo/Daten haben dann der folgenden Code wird die Datei in einen Datenrahmen lesen

sqlContext.read. 
    format("com.databricks.spark.csv"). 
    option("delimiter","\t"). 
    option("header","true"). 
    load("hdfs:///demo/data/tsvtest.tsv").show 

um den Code auszuführen von Funken Shell folgenden verwenden:

--packages com.databricks:spark-csv_2.10:1.4.0 

Spark 2.0 csv nativ unterstützt wird, so sollten Sie in der Lage sein, so etwas zu tun:

spark.read. 
    option("delimiter","\t"). 
    option("header","true"). 
    csv("hdfs:///demo/data/tsvtest.tsv").show 
1

mit NoSQL-Daten verwendet werden, wenn ich richtig bin zu verstehen, wollen Sie im Wesentlichen Daten aus dem HDFS lesen und Sie mögen diese Daten automatisch in einen Datenrahmen umgewandelt werden.

Wenn das der Fall ist, würde ich Ihnen this Funken csv Bibliothek empfehlen. Überprüfen Sie das, es hat eine sehr gute Dokumentation.

Verwandte Themen