Nach this Frage, möchte ich fragen. Ich habe 2 Tabellen: Die erste Tabelle - MajorRange
Effizient alle relevanten Unterbereiche für bigdata Tabellen in Hive/Spark
row | From | To | Group ....
-----|--------|---------|---------
1 | 1200 | 1500 | A
2 | 2200 | 2700 | B
3 | 1700 | 1900 | C
4 | 2100 | 2150 | D
...
Die zweite Tabelle - SubRange
row | From | To | Group ....
-----|--------|---------|---------
1 | 1208 | 1300 | E
2 | 1400 | 1600 | F
3 | 1700 | 2100 | G
4 | 2100 | 2500 | H
...
Die Ausgabetabelle die alle SubRange
Gruppen sein sollten, die die MajorRange
Gruppen überlappen über hat. Im folgenden Beispiel ist die Ergebnistabelle:
row | Major | Sub |
-----|--------|------|-
1 | A | E |
2 | A | F |
3 | B | H |
4 | C | G |
5 | D | H |
Falls es keine Überschneidungen zwischen den Bereichen der Major
wird nicht angezeigt. Beide Tabellen sind große Datentabellen.Wie kann ich es am effizientesten mit Hive/Spark machen?
Danke, falls keine Zeilenspalte vorhanden ist. Was muss ich in Ihrem Code ändern? – Avi
Sie müssen den Code nicht ändern. Die Spalte "row" wird hier nicht verwendet. Ich habe eine neue Zeilenspalte erstellt, um Ihre Ausgabe zu erfüllen. – Psidom