ich einen pyspark Datenrahmen haben wie: wo c1, c2, c3, c4, c5, c6 sind die SäulenPySpark Datenrahmen identifizieren eindeutigen Wert auf eine Spalte basierend auf doppelte Werte in anderen Spalten
+----------------------------+ |c1 | c2 | c3 | c4 | c5 | c6 | |----------------------------| | a | x | y | z | g | h | | b | m | f | l | n | o | | c | x | y | z | g | h | | d | m | f | l | n | o | | e | x | y | z | g | i | +----------------------------+
Ich möchte c1-Werte für die Zeilen extrahieren, die dieselben c2-, c3-, c4-, c5-Werte aber unterschiedliche c1-Werte haben. Wie, 1., 3. & 5. Zeilen haben die gleichen Werte für c2, c3, c4 & c5, aber andere c1-Wert. Die Ausgabe sollte also a, c & e sein.
(Update) ähnlich, 2. & 4. Zeilen haben die gleichen Werte für c2, c3, c4 & c5, aber andere c1-Wert. So sollte der Ausgang auch enthalten b & d
Wie kann ich ein solches Ergebnis erhalten? Ich habe versucht, groupby anzuwenden, aber ich verstehe nicht, wie man unterschiedliche Werte für c1 erhält.
UPDATE:
Ausgabe sollte
# +-------+
# |c1_dups|
# +-------+
# | a,c,e|
# | b,e|
# +-------+
Mein Ansatz ein Datenrahmen von c1 Werte annehmen:
m = data.groupBy('c2','c3','c4','c5)
aber ich bin nicht zu verstehen, wie die Werte abrufen in m. Ich bin neu Datenrahmen daher sehr verwirrt
Es ist ein wenig schwierig, Ihr Problem zu verstehen. Können Sie das Beispiel für das Ausgabedatenfeld schreiben? –
Danke :) Bitte überprüfen Sie mein Update – Denver
können Sie mit Gruppe von Ansatz aktualisieren, die Sie versucht haben? – eliasah