Beim Einfügen von Hive-Tabelle in HIve-Tabelle, Es lädt mehr Datensätze als die tatsächlichen Datensätze. Kann jemand in diesem seltsamen Verhalten von Hive helfen?Laden mehr Datensätze als tatsächlich in HIve
Meine Abfrage würde wie folgt suchen:
insert overwrite table_a
select col1,col2,col3,... from table_b;
Mein Table_B von 6.405.465 Datensätze besteht.
Nach dem Table_B zu TABLE_A Einfügen, fand ich total Datensätze in TABLE_A sind hier 6406565.
Kann jemand bitte helfen?
sind sie unterschiedlich gespeichert? vielleicht haben Sie in einigen der Daten 'table_a' Zeilentrennzeichen –
Ja, table_b ist normale Texttabelle. wo als Tabelle_a partitionierte Texttabelle ist. Und beide Tabellen haben Zeile durch '\ n' delimeted, Feilds delimeted von '\ t' –
Siehe auch: http://stackoverflow.com/a/39914232/2700344 Überprüfen Sie, ob Sie Statistiken für count (*) verwenden Berechnung – leftjoin