Ich habe ein seltsames Problem mit der Hive-Shell. Ich habe ein Hadoop-System mit Apache-Original-Paketen erstellt. Ich benutze tez.Hive Rückgabe keine Werte, wenn mit der Funktion verwendet
Um das System zu testen, lud ich die NY Taxi Daten ohne Probleme in den Stock. Der Datensatz hat etwa 11 Millionen Zeilen. Wenn ich Stents in der Hive-Shell auswähle, funktioniert es. Wenn ich Funktionen wie dies
select count(*) from yellow;
oder
select sum(trip_distance) from yellow where trip_distance is not null;
, dass der Prozess läuft ohne Probleme durch, aber nur OK zurück. Wenn ich dasselbe in Spark-SQL mache, bekomme ich die Antwort. Auch wenn ich nach Anweisungen gruppiere, ist das Ergebnis dasselbe.
Die Tabellendefinition ist
CREATE TABLE `default.yellow` (`VendorID` int , `tpep_pickup_datetime` timestamp , `tpep_dropoff_datetime` timestamp , `passenger_count` bigint , `trip_distance` float , `pickup_longitude` float , `pickup_latitude` float , `RatecodeID` bigint , `store_and_fwd_flag` string , `dropoff_longitude` float , `dropoff_latitude` float , `payment_type` bigint , `fare_amount` int , `extra` float , `mta_tax` float , `tip_amount` int , `tolls_amount` bigint , `improvement_surcharge` float , `total_amount` float) COMMENT "yellow" stored as ORC
Das in ORC-Format ist. Ich habe auch Parkett verwendet, aber keinen Unterschied im Ergebnis.
Und auch andere Tabellen zeigten nur das OK-Ergebnis, wenn ich die Zeilen zähle.
Hier sind einige Beispiellinien, wie erwähnt, das sind frei verfügbare NY Taxi Daten, die ich zum Testen verwendet.
2,2016-06-09 21:06:36.0,2016-06-09 21:13:08.0,2,0.79,-73.98336,40.760937,1,N,-73.97746,40.75398,2,6,0.5,0.5,0,0,0.3,7.3
2,2016-06-09 21:06:36.0,2016-06-09 21:35:11.0,1,5.22,-73.98172,40.736668,1,N,-73.981636,40.670242,1,22,0.5,0.5,4,0,0.3,27.3
2,2016-06-09 21:06:36.0,2016-06-09 21:13:10.0,1,1.26,-73.994316,40.751072,1,N,-74.004234,40.74217,1,6,0.5,0.5,1,0,0.3,9.36
2,2016-06-09 21:06:36.0,2016-06-09 21:36:10.0,1,7.39,-73.98236,40.77389,1,N,-73.92947,40.85154,1,26,0.5,0.5,1,0,0.3,28.3
Bitte geben Sie die Tabellendefinition und einige Beispielzeilen an –
Überprüfen Sie mapreduce stack traces, um mehr Einblicke zu erhalten. –
Ich konnte das Problem nicht reproduzieren. Ich habe Sie die NY Taxi Daten in Bienenstock geladen? Was bekommst du für 'select * from yellow limit 10'? –