Ich verwende AWS-EMR, um meine Hive-Abfragen auszuführen, und ich habe ein Leistungsproblem beim Ausführen von Hive-Version 0.13.1.Leistungsproblem in Hive-Version 0.13.1
Die neuere Version des Bienenstocks dauerte ungefähr 5 Minuten für das Ausführen von 10 Datenzeilen. Aber das gleiche Skript für 230804 Zeilen dauert 2 Tage und läuft noch. Was muss ich tun, um das Problem zu analysieren und zu beheben?
Beispieldaten:
Tabelle 1:
hive> describe foo;
OK
orderno string
Time taken: 0.101 seconds, Fetched: 1 row(s)
Beispieldaten für Tabelle1:
hive>select * from foo;
OK
1826203307
1826207803
1826179498
1826179657
Tabelle 2:
hive> describe de_geo_ip_logs;
OK
id bigint
startorderno bigint
endorderno bigint
itemcode int
Time taken: 0.047 seconds, Fetched: 4 row(s)
Beispieldaten für Tabelle 2:
hive> select * from bar;
127698025 417880320 417880575 306
127698025 3038626048 3038626303 584
127698025 3038626304 3038626431 269
127698025 3038626560 3038626815 163
Meine Suche:
SELECT b.itemcode
FROM foo a, bar b
WHERE a.orderno BETWEEN b.startorderno AND b.endorderno;
0.Hive 0.13 ist nicht stabil und hat viele Probleme, wie viele der Abfragen älterer Versionen nicht in dieser Version verwenden verwenden neueste Hive 0.14 –
Hive-0.14 haben viele erweiterte Funktionen wie Einfügen, Aktualisieren, Löschen –
Diese Frage ist absurd . – gobrewers14