2017-02-21 5 views
0

Ich habe eine hive table, die von 2,7 MB ist (die in einem Parkett-Format gespeichert ist). Wenn ich impala-shell verwende, um diese Hive-Tabelle in kudu zu konvertieren, stelle ich fest, dass die Ordnergröße /tserver/ um 300 MB erhöht. Wenn ich weiter erforsche, sehe ich, dass es der Ordner /tserver/wals/ ist, der den Großteil dieses Anstiegs hält. Ich bin deswegen mit ernsthaften Problemen konfrontiert. Wenn eine 2,7-MB-Datei 300 MB WAL generiert, kann ich nicht wirklich an größeren Daten arbeiten. Gibt es dafür eine Lösung?Zu viel Speicherplatz von Apache Kudu für WALs verwendet

Meine kudu Version ist 1.1.0 und Impala ist 2.7.0.

Antwort

0

Ich habe KUDU nie verwendet, aber ich bin in der Lage, auf ein paar Schlüsselwörter Google und lesen Sie einige Dokumentation.

Aus dem Kudu configuration reference Abschnitt "Nicht unterstützten Flags" ...

--log_preallocate_segments
Ob der WAL

--log_segment_size_mb
das gesamte Segment vor dem Schreiben auf es
Standard wahr

preallocate sollte Die Standardsegmentgröße für Protokollüberläufe, in MB
Standard 64

--log_min_s egments_to_retain
Die Mindestanzahl von Protokollsegmenten, die in der Vergangenheit gespeichert wurden, unabhängig davon, was für die Dauerhaftigkeit erforderlich ist. mindestens 1
Default 2

--log_max_segments_to_retain
Die maximale Anzahl der letzten Log-Segmente zu halten jederzeit für die Zwecke der Aufholjagd andere Peers müssen sein.
Standard 10

Sieht aus wie Sie einen Mindest Plattenbedarf von (2 + 1) x 64 MB pro Tablette, für den WAL nur haben. Und es kann bis zu 10x64 MB werden, wenn einige Tabletten nachgeben und nicht aufholen können.

plus einige Raumtemperatur Platte für die Verdichtung etc. etc.


[Bearbeiten] diese Standardwerte haben sich geändert in Kudu 1.4 (veröffentlicht im Juni 2017); die Release Notes zu zitieren ...

Die Standardgröße für Write Ahead Log (WAL) Segmente hat von 64 MB bis 8 MB reduziert. Wenn alle Replikate eines Tablets vollständig aktuell sind und Daten aus dem Speicher gelöscht wurden, behalten Server nur noch ein einzelnes WAL-Segment statt zwei.
Diese Veränderungen zu erwarten den Durchschnittsverbrauch von Platten Raum auf der Platte konfiguriert WAL reduzieren von 16x

Verwandte Themen