ich einen Datenrahmen haben, die wie folgt aussieht:Count Instanzen anhand von Kriterien mit groupby()
In [60]: df1
Out[60]:
DIFF UID
0 NaN 1
1 13.0 1
2 4.0 1
3 NaN 2
4 3.0 2
5 23.0 2
6 NaN 3
7 4.0 3
8 29.0 3
9 42.0 3
10 NaN 4
11 3.0 4
und für jede UID
möchte ich, wie viele Instanzen berechnen gefunden Wert für DIFF
über einen bestimmten haben param.
Ich habe versucht, so etwas wie diese:
In [61]: threshold = 5
In [62]: df1[df1.DIFF > threshold].groupby('UID')['DIFF'].count().reset_index().rename(columns={'DIFF':'ATTR_NAME'})
Out[63]:
UID ATTR_NAME
0 1 1
1 2 1
2 3 2
Das funktioniert gut, in Bezug jedoch die Rückkehr die richtige Anzahl der Instanzen pro Benutzer usw. zu finden, würde Ich mag Lage sein, auch die Benutzer gehören zu das haben 0 Instanzen, die jetzt im Teil ausgeschlossen sind.
würde die gewünschte Ausgabe sein:
UID ATTR_NAME
0 1 1
1 2 1
2 3 2
3 4 0
Irgendwelche Ideen?
Dank
Danke für die Hilfe! Ich muss lernen, "Reindex" besser zu verwenden. – Thanos