Ich erstelle ein Datenrahmen von Parkett-Datei wie folgt:Wie Drucken von eindeutigen Werten einer Spalte von DataFrame in Spark?
DataFrame parquetFile = sqlContext.read().parquet("test_file.parquet");
parquetFile.printSchema();
parquetFile.registerTempTable("myData");
DataFrame data_df = sqlContext.sql("SELECT * FROM myData");
Jetzt habe ich alle eindeutigen Werte einer Spalte drucken möchten, die field1
genannt wird.
Ich weiß, dass im Falle der Verwendung von Python, wäre es möglich, import pandas as pd
ausführen und dann konvertieren data_df
zu Pandas DataFrame, nach denen unique()
verwenden.
Aber wie kann ich es in Java tun?
'select distinct (field1) aus myData' ?? – philantrovert
@philantrovert: Könnten Sie bitte Ihre Antwort veröffentlichen? Bei einem großen Dataset funktioniert Ihre Lösung besser, da nicht alle Daten in den Datenrahmen geladen werden. Es wählt die erforderlichen Daten aus. – Dinosaurius
Jemand hat es bereits gepostet: D btw, können Sie versuchen, 'data_df.select (data_df (" field1)). Distinct "? Dies sollte nicht die gesamten Daten als auch laden und könnte schneller sein wegen interner Optimierungen in Spark. – philantrovert