Ich bin neu in Impala, ich mache einige Testfälle auf Impala. Ich fand ähnliche SQLs ist viel schneller, wenn ich das zweite Mal angerufen habe.Impala Cache einige Daten nach Abfragen
Zum Beispiel:
- tabelle1 = 4B Reihen
- table2 = 50M Reihen
erste Abfrage: select * from table1 where id in (select id from table2 where xxx < 10000)
(20 Sekunden)
zweite Abfrage: select * from table1 where id in (select id from table2 where xxx < 9999)
(10 Sekunden)
3. Abfrage: select * from table1 where id in (select id from table2 where xxx < 100)
(1 Sekunde)
Ich denke, Impala einige spezielle Cache tun, kann mir jemand könnte seinen Grund sagen?
Danke.
Ich habe einige Blogs von http://www.cloudera.com/documentation/cdh/5-1-x/Impala/Installing-and-Using-Impala/ciiu_perf_stats.html gelesen, aber ich habe keine gefunden Statistik und Cache in Tabellen oder Spalten stat in meinen Tabellen; –