Können wir DataFrame beim Lesen von Daten aus HDFS verwenden? Ich habe einen Tab getrennt Daten in HDFS.Verwenden von Spark DataFrame zum Laden von Daten aus HDFS
ich gegoogelt, sah aber es kann
Können wir DataFrame beim Lesen von Daten aus HDFS verwenden? Ich habe einen Tab getrennt Daten in HDFS.Verwenden von Spark DataFrame zum Laden von Daten aus HDFS
ich gegoogelt, sah aber es kann
DataFrame ist sicherlich nicht auf NoSQL-Datenquellen beschränkt. Parkett-, ORC- und JSON-Unterstützung wird nativ in 1.4 bis 1.6.1 bereitgestellt; Textgetrennte Dateien werden mit dem Paket spark-cvs unterstützt.
Wenn Sie Ihre tsv-Datei in HDFS bei/demo/Daten haben dann der folgenden Code wird die Datei in einen Datenrahmen lesen
sqlContext.read.
format("com.databricks.spark.csv").
option("delimiter","\t").
option("header","true").
load("hdfs:///demo/data/tsvtest.tsv").show
um den Code auszuführen von Funken Shell folgenden verwenden:
--packages com.databricks:spark-csv_2.10:1.4.0
Spark 2.0 csv nativ unterstützt wird, so sollten Sie in der Lage sein, so etwas zu tun:
spark.read.
option("delimiter","\t").
option("header","true").
csv("hdfs:///demo/data/tsvtest.tsv").show
mit NoSQL-Daten verwendet werden, wenn ich richtig bin zu verstehen, wollen Sie im Wesentlichen Daten aus dem HDFS lesen und Sie mögen diese Daten automatisch in einen Datenrahmen umgewandelt werden.
Wenn das der Fall ist, würde ich Ihnen this Funken csv Bibliothek empfehlen. Überprüfen Sie das, es hat eine sehr gute Dokumentation.