Hallo Ich habe es mit einem etwas schwierigen Dateiformat, das ich versuche für einige zukünftige Verarbeitung zu reinigen. Ich habe Pyspark benutzt, um die Daten in einen Datenrahmen zu verarbeiten.PySpark explodieren Liste in mehrere Spalten basierend auf Name
Die Datei sieht wie folgt aus:
AA 1234 ZXYW
BB A 890
CC B 321
AA 1234 LMNO
BB D 123
CC E 321
AA 1234 ZXYW
CC E 456
Jeder ‚AA‘ Rekord den Beginn einer logischen Gruppe oder Aufzeichnungen und die Daten in jeder Zeile definiert ist feste Länge und hat darin codierte Information, dass ich möchte extrahieren. Es gibt mindestens 20-30 verschiedene Datensatztypen. Sie werden immer mit einem Zwei-Buchstaben-Code am Anfang jeder Zeile gekennzeichnet. Es können 1 oder viele verschiedene Datensatztypen werden in jeder Gruppe (dh nicht alle Datensatztypen für jede Gruppe vorhanden sind)
Als ersten Schritt habe ich die Aufzeichnungen zusammen in diesem Format Gruppe verwaltet:
+----------------+---------------------------------+
| index| result|
+----------------+---------------------------------+
| 1|[AA 1234 ZXYV,BB A 890,CC B 321]|
| 2|[AA 1234 LMNO,BB D 123,CC E 321]|
| 3|[AA 1234 ZXYV,CC B 321] |
+----------------+---------------------------------+
Und als zweite Stufe will ich wirklich Daten in die folgenden Spalten in einem Datenrahmen erhalten:
+----------------+---------------------------------+-------------+--------+--------+
| index| result| AA| BB| CC|
+----------------+---------------------------------+-------------+--------+--------+
| 1|[AA 1234 ZXYV,BB A 890,CC B 321]|AA 1234 ZXYV|BB A 890|CC B 321|
| 2|[AA 1234 LMNO,BB D 123,CC E 321]|AA 1234 LMNO|BB D 123|CC E 321|
| 3|[AA 1234 ZXYV,CC B 321] |AA 1234 ZXYV| Null|CC B 321|
+----------------+---------------------------------+-------------+--------+--------+
an diesem Punkt, weil die Informationen zu extrahieren, die ich sollte trivial sein müssen.
Hat jemand irgendwelche Vorschläge, wie ich das vielleicht könnte?
Vielen Dank.
mit Datenrahmen einige gute Beispiele für eine Schwenk finden, die absolut perfekt funktioniert, genau das, was ich brauchte. Vielen Dank für Ihre Hilfe. – robarthur1