2017-10-25 7 views
0

Ich habe ein Dataframe "df" wie das Beispiel unten. Ich möchte Adresse und business_id als eindeutigen Schlüssel verwenden und den Datenrahmen filtern, so dass er nur eindeutige Datensätze basierend auf der Kombination aus Adresse und business_id aufweist. Kann jemand vorschlagen, wie man das macht?entfernen Duplikate aus Datarahmen

Code:

print df[["address","business_id","city"]][1:3] 

Beispieldaten:

   address    business_id  city 
1  2824 Milton Rd mLwM-h2YhXl2NCgdS84_Bw Charlotte 
2 337 Danforth Avenue v2WhjAB3PIBA8J8VxG3wEg Toronto 
+3

'df.drop_duplicates verwenden df.set_index ([" -Adresse "," business_id "])' – MaxU

+0

Mögliches Duplikat von [Alle doppelten Zeilen in Python Pandas löschen] (https://stackoverflow.com/questions/23667369/drop-all-duplicate-Zeilen-in-Python-Pandas) – DJK

Antwort

-1

Zusammen mit der doppelten Entfernung, möchten Sie

df.set_index(keys=["address","business_id"])