2016-07-29 13 views
5

Ich verstehe diese Frage nur eine sehr einfache und sehr wahrscheinlich irgendwo beantwortet worden, aber als Anfänger es mir immer noch nicht, und für Ihre Erleuchtung suche, danke im Voraus:Wie erhält man eindeutige Zeilen im Datenrahmen mit pyspark?

habe ich einen Zwischen Datenrahmen:

+----------------------------+---+ 
|host      |day| 
+----------------------------+---+ 
|in24.inetnebr.com   |1 | 
|uplherc.upl.com    |1 | 
|uplherc.upl.com    |1 | 
|uplherc.upl.com    |1 | 
|uplherc.upl.com    |1 | 
|ix-esc-ca2-07.ix.netcom.com |1 | 
|uplherc.upl.com    |1 | 

Was ich brauche alle redundanten Elemente in Host-Spalte zu entfernen ist, in einem anderen Wort, ich brauche wie das letzte eindeutige Ergebnisse zu erhalten:

+----------------------------+---+ 
|host      |day| 
+----------------------------+---+ 
|in24.inetnebr.com   |1 | 
|uplherc.upl.com    |1 | 
|ix-esc-ca2-07.ix.netcom.com |1 | 
|uplherc.upl.com    |1 | 

Antwort

7

Wenn df der Name Ihres Datenrahmen ist, gibt es zwei Möglichkeiten, eindeutige Zeilen zu erhalten:

df2 = df.distinct() 

oder

df2 = df.drop_duplicates() 
+0

Dank. Das ist ziemlich einfach – mdivk

Verwandte Themen