Verwenden von Spark DataFrame zum Laden von Daten aus HDFS

Können wir DataFrame beim Lesen von Daten aus HDFS verwenden? Ich habe einen Tab getrennt Daten in HDFS.Verwenden von Spark DataFrame zum Laden von Daten aus HDFS

ich gegoogelt, sah aber es kann

Quelle

2016-06-05 ToBeSparkShark

DataFrame ist sicherlich nicht auf NoSQL-Datenquellen beschränkt. Parkett-, ORC- und JSON-Unterstützung wird nativ in 1.4 bis 1.6.1 bereitgestellt; Textgetrennte Dateien werden mit dem Paket spark-cvs unterstützt.

Wenn Sie Ihre tsv-Datei in HDFS bei/demo/Daten haben dann der folgenden Code wird die Datei in einen Datenrahmen lesen

sqlContext.read. 
    format("com.databricks.spark.csv"). 
    option("delimiter","\t"). 
    option("header","true"). 
    load("hdfs:///demo/data/tsvtest.tsv").show

um den Code auszuführen von Funken Shell folgenden verwenden:

--packages com.databricks:spark-csv_2.10:1.4.0

Spark 2.0 csv nativ unterstützt wird, so sollten Sie in der Lage sein, so etwas zu tun:

spark.read. 
    option("delimiter","\t"). 
    option("header","true"). 
    csv("hdfs:///demo/data/tsvtest.tsv").show

Quelle

2016-06-06 10:04:01

mit NoSQL-Daten verwendet werden, wenn ich richtig bin zu verstehen, wollen Sie im Wesentlichen Daten aus dem HDFS lesen und Sie mögen diese Daten automatisch in einen Datenrahmen umgewandelt werden.

Wenn das der Fall ist, würde ich Ihnen this Funken csv Bibliothek empfehlen. Überprüfen Sie das, es hat eine sehr gute Dokumentation.

Quelle

2016-06-05 05:34:13 dbustosp

Verwenden von Spark DataFrame zum Laden von Daten aus HDFS

Antwort

Verwandte Themen