Ich würde gerne eine schnelle Bereich Abfrage auf einem Parkett Tisch machen können. Die Menge der zurückzugebenden Daten ist im Vergleich zur Gesamtgröße sehr klein, aber da ein vollständiger Spaltenscan durchgeführt werden muss, ist es für meinen Anwendungsfall zu langsam.Index im Parkett
Mit einem Index würde dieses Problem lösen und ich las, dass dies in Parquet 2.0 hinzugefügt werden sollte. Ich kann jedoch keine weiteren Informationen dazu finden, daher vermute ich, dass dies nicht der Fall war. Ich glaube nicht, dass es grundsätzliche Hindernisse für das Hinzufügen von (mehrspaltigen) Indizes geben würde, wenn die Daten sortiert wären, was in meinem Fall der Fall ist.
Meine Frage ist: wann werden Indizes zu Parkett hinzugefügt, und was wäre das High-Level-Design dafür? Ich denke, ich wäre schon mit einem Index zufrieden, der auf die richtige Partition hinweist.
Mit freundlichen Grüßen,
Sjoerd.
Eine laaaaange Zeit. Es ist geplant für [v2.0] (https://github.com/Parquet/parquet-mr). – user568109
vielleicht interessant für Sie: https://github.com/lightcopy/parquet-index –