Ich führe eine Hive-Abfrage wie TableA Linke Join TableB auf TableA.col1 = TableB.col1 und TableA.col2 = TableB.col2. Tabelle A hat 1,8 Milliarden Daten und Tabelle B hat 31 Millionen Datensätze. Jetzt werden die letzten Reduzierungen in meinem Join nicht abgeschlossen und es läuft lange.Skew Daten verursachen lange laufende Abfrage im Bienenstock
Es kann aufgrund von Skew-Daten sein. Ich habe versucht MAPJOIN und die Abfrage fehlgeschlagen wegen der großen Datenmenge für TabelleA. Gibt es andere Möglichkeiten, diese besser zu bewältigen?
Die Aufgabe, die ich für lange sehen läuft wie unten
reduce > copy task(attempt_1498868574233_185232_m_001336_0 succeeded at 8.94 MB/s) Aggregated copy rate(1121 of 2532 at 108.94 MB/s)
Was genau ist es versuchen, in diesem Schritt zu tun?
Siehe hier: https://stackoverflow.com/a/37414611/2700344 – leftjoin
@leftjoin, keine Notwendigkeit für die manuelle Arbeit-around. Hive unterstützt Schrägverknüpfungen. –