Ich schrieb einen Spark-Job, um aus Hive-Daten in S3 zu lesen und HFiles zu generieren. Dieser Job funktioniert gut beim Lesen nur einer ORC-Datei (ca. 190 MB), aber wenn ich es verwendet, um das gesa
Ich schrieb eine Spark-Anwendung, die HFiles generiert, die später für das Massenladen mit dem Befehl LoadIncrementalHFiles verwendet werden. Da der Quellendatenpool sehr groß ist, werden die Eingabed