Wir verwenden Spark, um Parkett-Dateien auf HDFS zu erzeugen.Parkett Metadatendateien nützlich auf HDFS?
Spark generieren 4 Dateien, das Parkett mit Daten und 3 Metadaten-Dateien. Die Sache ist, die 3 Meta-Dateien nehmen 1 Block, hier 128M, wie wir viele Aufgaben wie diese ausführen, könnte dies viel Platz für nichts nehmen.
Werden Dateien benötigt? Oder ist es ein guter Weg, damit umzugehen?
Ohne die Metadaten ist es ziemlich schwierig, die Parquet-Dateien zu verstehen. – LiMuBei
Wir verwenden Hive als Data Warehouse, Abfrage mit PrestoDB und Hive –
_ "Meta-Dateien nehmen 1 Block, hier 128M ... könnte viel Platz nehmen" _ >> ** Nr. ** Die HDFS Blockgröße hat keine erhebliche Auswirkungen auf _physical_ Datenträgerverwendung. Es geht um die logische Verteilung von Daten für große Dateien. Wenn ein Client in eine HDFS-Datei schreibt, wenn der aktuelle Block 128 MB erreicht, wird ein neuer Block erstellt (und auf Zufallsknoten repliziert). aber am Ende wird jeder Block als normale Linux-Datei Byte für Byte gespeichert (plus einige Metadaten in einer zusätzlichen Linux-Datei). –