Ich bin neu in Hadoop Hive und entwickle eine Reporting-Lösung. Das Problem ist, dass die Abfrageleistung sehr langsam ist (Hive 0.10, HBase 0.94, Hadoop 1.1.1). Eine der Fragen lautet:Hadoop Hive langsame Abfragen
, die ziemlich lange dauert (50s). Ich weiß, ich weiß, der Join ist auf String-Feld und nicht auf Integer, aber die Datensätze sind nicht groß (cca 3300 und 100000 Datensätze). Ich habe versucht, Hinweise auf diese SQL, aber das ging nicht schneller. Die gleiche Abfrage auf MS SQL Server dauert 1s. Auch eine einfache Zählung (*) von Tabelle dauert 7-8s, was schockierend ist (die Tabelle hat 3300 Datensätze). Ich weiß wirklich nicht, was das Problem ist? Irgendwelche Ideen oder habe ich Hadoop falsch interpretiert?
nicht Impalas verwendet für die Analyse großer Daten. check [this] (https://gigaom.com/2014/01/13/cloudera-says-impala-is-faster-than-hive-which-isnt-saying-much/). Sogar die aktuelle Version (0.15) ist viel schneller als das, was in diesem Blog verwendet wird. Überprüfen Sie [dieses Blog] (http://hortonworks.com/blog/benchmarking-apache-hive-13-enterprise-hadoop/). – chanchal1987