Ich verstehe diese Frage nur eine sehr einfache und sehr wahrscheinlich irgendwo beantwortet worden, aber als Anfänger es mir immer noch nicht, und für Ihre Erleuchtung suche, danke im Voraus:Wie erhält man eindeutige Zeilen im Datenrahmen mit pyspark?
habe ich einen Zwischen Datenrahmen:
+----------------------------+---+
|host |day|
+----------------------------+---+
|in24.inetnebr.com |1 |
|uplherc.upl.com |1 |
|uplherc.upl.com |1 |
|uplherc.upl.com |1 |
|uplherc.upl.com |1 |
|ix-esc-ca2-07.ix.netcom.com |1 |
|uplherc.upl.com |1 |
Was ich brauche alle redundanten Elemente in Host-Spalte zu entfernen ist, in einem anderen Wort, ich brauche wie das letzte eindeutige Ergebnisse zu erhalten:
+----------------------------+---+
|host |day|
+----------------------------+---+
|in24.inetnebr.com |1 |
|uplherc.upl.com |1 |
|ix-esc-ca2-07.ix.netcom.com |1 |
|uplherc.upl.com |1 |
Dank. Das ist ziemlich einfach – mdivk