Ich habe einen Datenrahmen, in dem die Zeilen eine Transaktion darstellen, die von einem bestimmten Benutzer ausgeführt wird. Beachten Sie, dass mehr als eine Zeile dieselbe user_id haben kann. In Anbetracht der Spaltennamen Geschlecht und user_id Lauf:Zählen von eindeutigen Werten von Kategorien der Spalte Gegebene Bedingung für andere Spalte
df.gender.value_counts()
die Frequenzen gibt, aber sie sind unecht, da sie möglicherweise einen bestimmten Benutzer mehr zählen kann als einmal. Zum Beispiel kann es mir sagen, dass es 50 männliche Individuen gibt, während sie tatsächlich viel weniger sind.
Gibt es eine Möglichkeit, dass ich value_counts()
nur einmal pro user_id zählen kann?
Mögliche Duplikat [Count eindeutige Werte mit Pandas] (http://stackoverflow.com/questions/38309729/count-unique-values-with-pandas) – ayhan
Ich frage mich, warum Du wählst keine einmalige 'user_id' und gruppierst nach' gender'. Hoffentlich ändern Ihre Benutzer ihr Geschlecht nicht zu oft. – jbndlr