Ich habe eine Hive-Tabelle X, die mehrere Dateien auf HDFS hat. Der Speicherort der Tabelle X auf HDFS ist/data/hive/X. Dateien:Spark HiveContext: Tabellen mit mehreren Dateien auf HDFS
/data/hive/X/f1
/data/hive/X/f2
/data/hive/X/f3 ...
Nun betreibe ich die folgenden Befehle:
df=hiveContext.sql("SELECT count(*) from X")
df.show()
Was intern passiert? Wird jede Datei als separate Partition betrachtet und von einem separaten Knoten verarbeitet, und werden die Ergebnisse sortiert?
Wenn ja, gibt es eine Möglichkeit, Spark anweisen, alle Dateien in 1 Partition zu laden und dann die Daten zu verarbeiten?
Vielen Dank im Voraus.
Wie ist das Format der Dateien, nur CSV/TSV? Sie können auch die Spark-Benutzeroberfläche öffnen und die DAG-Visualisierung anzeigen. –
Hallo Fokko - sie sind Pipe-getrennte Textdateien. – user3031097