Ich brauche Hilfe bei dem Versuch, die Leistung der laufenden Aggregation Abfragen von Json zu verbessern.Apache Drill JSON Abfrage Leistung
Meine einfachen count(*)
Aggregationsabfragen über Json benötigen 11 Minuten, um nur 640 MB Daten zu vervollständigen.
Ich habe einen einzelnen Knoten-Cluster (8 Kerne, 8 GB RAM, mit lokalen SSD-Speicher).
Statistiken Daten:
- 163.783 json Dateien
- 640MB insgesamt
Vom UI Bohrer ich folgendes sehen:
DURATION: 11 min 27.665 sec *PLANNING*: 06 min 30.337 sec QUEUED: Not Available EXECUTION: 04 min 57.328 sec
Was kann ich tun, um die Leistung zu verbessern? Muss ich den Speicher oder die Komprimierung für die JSON-Dateien ändern, um die Leseleistung zu verbessern?
Können Sie versuchen, die json-Datei zusammenzuführen und zu sehen, wie sie funktioniert? Die Anzahl von 163.783 JSON-Dateien scheint in Hadoop ein Problem mit kleinen Dateien zu sein. Sie können Dateien wie in Beispiel zusammenführen - https://drill.apache.org/docs/json-data-model/#ticket_sales.json-contents. – InfamousCoconut