ich einen Datenrahmen erstellt, die eine doppelte Zeile wie unten:Pandas `drop_duplicates` nicht erste Zeile nicht halten
df = pd.DataFrame({"Order Date": ["January 1, 2017", "March 15, 2017", "April 20, 2017", "June 23, 2017", "December 12, 2017", None, "April 20, 2017", "April 20, 2017"],
"Sales Person": ["John", "John", "Rick", "Mary", "Mary", "Rick", "Rick", "Rick"],
"Items Sold": [4, -999, 1, np.nan, 7, 3, 1, 1],
"Item Price": [4.99, 1.99, 9.99, 19.99, 0.99, 2.99, 9.99, 9.99]})
, die wie folgt in Jupyter aussieht:
Wenn ich das bekommen Dupliziert es korrekt die zwei Zeilen, die Duplikate sind.
df[df.duplicated()]
ich drop_duplicates
dann rufen Sie das zweite Duplikat und halten Sie die erste fallen zu lassen.
df.drop_duplicates()
aber es sieht aus wie es die beiden Reihen zu entfernen ist, anstatt die erste zu halten. Fehle ich etwas in der drop_duplicates
Methode? Der Docstring gibt an, dass der keep
Parameter standardmäßig first
ist und dies auch dann noch passiert, wenn ich diesen Parameter explizit einfüge.
Ahhhh , Aha! Danke, dass du das unterstrichen hast! – Jon
@Jon yw ~ fröhliche Codierung – Wen