Wie erhält man eindeutige Zeilen im Datenrahmen mit pyspark?

Ich verstehe diese Frage nur eine sehr einfache und sehr wahrscheinlich irgendwo beantwortet worden, aber als Anfänger es mir immer noch nicht, und für Ihre Erleuchtung suche, danke im Voraus:Wie erhält man eindeutige Zeilen im Datenrahmen mit pyspark?

habe ich einen Zwischen Datenrahmen:

+----------------------------+---+ 
|host      |day| 
+----------------------------+---+ 
|in24.inetnebr.com   |1 | 
|uplherc.upl.com    |1 | 
|uplherc.upl.com    |1 | 
|uplherc.upl.com    |1 | 
|uplherc.upl.com    |1 | 
|ix-esc-ca2-07.ix.netcom.com |1 | 
|uplherc.upl.com    |1 |

Was ich brauche alle redundanten Elemente in Host-Spalte zu entfernen ist, in einem anderen Wort, ich brauche wie das letzte eindeutige Ergebnisse zu erhalten:

+----------------------------+---+ 
|host      |day| 
+----------------------------+---+ 
|in24.inetnebr.com   |1 | 
|uplherc.upl.com    |1 | 
|ix-esc-ca2-07.ix.netcom.com |1 | 
|uplherc.upl.com    |1 |

Quelle

2016-07-29 mdivk

Wenn df der Name Ihres Datenrahmen ist, gibt es zwei Möglichkeiten, eindeutige Zeilen zu erhalten:

df2 = df.distinct()

oder

df2 = df.drop_duplicates()

Quelle

2016-07-29 07:30:13

Dank. Das ist ziemlich einfach – mdivk

Wie erhält man eindeutige Zeilen im Datenrahmen mit pyspark?

Antwort

Verwandte Themen