2017-02-28 10 views
0

Ich habe ein seltsames Problem mit der Hive-Shell. Ich habe ein Hadoop-System mit Apache-Original-Paketen erstellt. Ich benutze tez.Hive Rückgabe keine Werte, wenn mit der Funktion verwendet

Um das System zu testen, lud ich die NY Taxi Daten ohne Probleme in den Stock. Der Datensatz hat etwa 11 Millionen Zeilen. Wenn ich Stents in der Hive-Shell auswähle, funktioniert es. Wenn ich Funktionen wie dies

select count(*) from yellow; 

oder

select sum(trip_distance) from yellow where trip_distance is not null; 

, dass der Prozess läuft ohne Probleme durch, aber nur OK zurück. Wenn ich dasselbe in Spark-SQL mache, bekomme ich die Antwort. Auch wenn ich nach Anweisungen gruppiere, ist das Ergebnis dasselbe.

Die Tabellendefinition ist

CREATE TABLE `default.yellow` (`VendorID` int , `tpep_pickup_datetime` timestamp , `tpep_dropoff_datetime` timestamp , `passenger_count` bigint , `trip_distance` float , `pickup_longitude` float , `pickup_latitude` float , `RatecodeID` bigint , `store_and_fwd_flag` string , `dropoff_longitude` float , `dropoff_latitude` float , `payment_type` bigint , `fare_amount` int , `extra` float , `mta_tax` float , `tip_amount` int , `tolls_amount` bigint , `improvement_surcharge` float , `total_amount` float) COMMENT "yellow" stored as ORC 

Das in ORC-Format ist. Ich habe auch Parkett verwendet, aber keinen Unterschied im Ergebnis.

Und auch andere Tabellen zeigten nur das OK-Ergebnis, wenn ich die Zeilen zähle.

Hier sind einige Beispiellinien, wie erwähnt, das sind frei verfügbare NY Taxi Daten, die ich zum Testen verwendet.

2,2016-06-09 21:06:36.0,2016-06-09 21:13:08.0,2,0.79,-73.98336,40.760937,1,N,-73.97746,40.75398,2,6,0.5,0.5,0,0,0.3,7.3 
2,2016-06-09 21:06:36.0,2016-06-09 21:35:11.0,1,5.22,-73.98172,40.736668,1,N,-73.981636,40.670242,1,22,0.5,0.5,4,0,0.3,27.3 
2,2016-06-09 21:06:36.0,2016-06-09 21:13:10.0,1,1.26,-73.994316,40.751072,1,N,-74.004234,40.74217,1,6,0.5,0.5,1,0,0.3,9.36 
2,2016-06-09 21:06:36.0,2016-06-09 21:36:10.0,1,7.39,-73.98236,40.77389,1,N,-73.92947,40.85154,1,26,0.5,0.5,1,0,0.3,28.3 
+0

Bitte geben Sie die Tabellendefinition und einige Beispielzeilen an –

+0

Überprüfen Sie mapreduce stack traces, um mehr Einblicke zu erhalten. –

+0

Ich konnte das Problem nicht reproduzieren. Ich habe Sie die NY Taxi Daten in Bienenstock geladen? Was bekommst du für 'select * from yellow limit 10'? –

Antwort

0

Ok hier ist die Lösung. Hive und Tez Log zeigten auch kein Problem. Auch die Anzahl der von tez angegebenen Zeilen war korrekt.

Also das einzige mögliche Problem könnte in der Kommunikation zwischen Bienenstock und tez sein. Und aus irgendwelchen unbekannten Gründen hatte die mapred-site.xml keinen Wert, weil sie beim Start gesetzt war. Nachdem ich es wieder auf den richtigen Wert gesetzt hatte, funktionierte es.

Verwandte Themen