Ich habe einen Pyspark Datenrahmen hier wie das Bild unten. Ich würde alle 2 Zeilen Gruppe wie, aber in einer Weise, dass:Pyspark - kombinieren 2 Reihen 2 eine, alle 2 Reihen
- die erste Reihe wäre, dass Benutzer von Zeile 1 und 2 und
- der zweiten Reihe von der Reihe wäre, 2 und 3 usw.
Etwas wie folgt aus:
---CustomerID--previous_stockcodes----stock_codes-----
Preise und Mengen nicht verwendet werden, vorherige Korb und den aktuellen Warenkorb in ein setzen. Zum Beispiel würde die erste Zeile von CustomerID 12347
sein:
12347----[85116, 22375, 71...]-----[84625A, 84625C, ...]
ich geschrieben habe, Schleifen, das zu tun, aber das ist wirklich ineffizient und langsam. Ich frage mich, ob ich so etwas effizient mit Pyspark machen kann, aber ich habe Schwierigkeiten, das herauszufinden. Vielen Dank im Voraus
gefunden Haben Sie auf CustomerId oder nur 2 Reihen Gruppe unabhängig von customerId basierend auf GROUPBY wollen? –
Ich muss sie in Trainingssatz umwandeln. Also ja nach KundenID, zB Zeile 1 und 2 von Kunde A, Zeile 2 und 3 von Kunde A etc – soulless