Ich habe einen Funken (Python) Datenrahmen mit zwei Spalten: ein Benutzer-ID und dann einem Array von Arrays, die in einem umhüllten Funken als Array wie so dargestellt wird:Pyspark 2.1.0 gewickelte Array zu Array
[WrappedArray(9, 10, 11, 12), WrappedArray(20, 21, 22, 23, 24, 25, 26)]
in seiner üblichen Darstellung würde dies wie folgt aussehen:
[[9, 10, 11, 12], [20, 21, 22, 23, 24, 25, 26]]
ich möchte Operationen auf jedem der Sub-Arrays durchzuführen, zum Beispiel eine dritte Liste nehmen und prüfen, ob eine ihrer Werte in der ersten Untergruppe ist , aber ich finde keine Lösungen für pyspark 2.0 (nur Scala-spezifische ältere Lösungen wie this und this).
Wie kann man auf eingepackte Arrays zugreifen (und im Allgemeinen mit ihnen arbeiten)? Was ist ein effizienter Weg, um das zu tun, was ich oben beschrieben habe?
Dank, was eine Lösung wäre mit Datenrahmen anstelle von RDDs? – xv70
vielleicht etwas wie '.getItem (num)', die Sie das Element aus der Liste erhält, wenn Spalte Liste ist. – Pushkr