ich einige Datenrahmen haben, die wie folgt aussieht:Pandas group_by Datum und sampeln
A B C date
0 J Y 2 2013-02-01 14:21:02.070030
1 X X 0 2013-02-01 15:49:33.110849
2 Y D 9 2013-02-01 06:47:19.369514
3 Y C 17 2013-02-01 08:56:11.751781
4 3 J 21 2013-02-01 14:19:12.017232
Ich möchte nach dem Datum zu gruppieren und dann zählen, aber die Information über die Stunden, Minuten, Sekunden, etc. weglassen .
Es scheint so etwas wie dies funktioniert:
df.set_index('date').resample('D').count()
Zwei Fragen:
- Warum funktioniert das? Ist das der richtige Weg?
- Warum funktioniert so etwas wie
df.group_by('date').resample('D').count()
nicht?
1. Weil 'resample' mit Zeitindizes arbeitet. Und ja, das ist der richtige Weg. 2. Etwas wie 'df.group_by ('date'). Resample ('D'). Count()' würde nicht funktionieren, weil Sie eine Zeitindexierung benötigen, damit das Sampling funktioniert. Sie können etwas tun wie: 'df.set_index ('date') .resample ('D'). Count(). Reset_index()' um 'date' als Spalte beizubehalten. – Abdou