Die Struktur einer Bienenstock-Tabelle (tbl_a
) ist wie folgt:Do UDF (was eine weitere Funken Job benötigt wird) zu jedem Element der Array-Spalte in SparkSQL
name | ids
A | [1,7,13,25168,992]
B | [223, 594, 3322, 192928]
C | null
...
Ein weiterer Bienenstock Tabelle (tbl_b
) haben die entsprechenden Zuordnung zwischen ID zu new_id. Diese Tabelle ist groß, so kann nicht in dem Speicher
id | new_id
1 | 'aiks'
2 | 'ficnw'
...
Ich beabsichtige, eine neue Stock-Tabelle zu erstellen geladen werden, um die gleiche Struktur wie tbl_a
, haben, aber das Array von id auf das Array von new_id konvertieren:
name | ids
A | ['aiks','fsijo','fsdix','sssxs','wie']
B | ['cx', 'dds', 'dfsexx', 'zz']
C | null
...
Könnte mir jemand eine Idee geben, wie dieses Szenario in Spark SQL oder in Spark DataFrame implementiert wird? Vielen Dank!