Ich habe einen Pandas Datenrahmen wie unten:Auswahl zufällige Reihen von Pandas Datenrahmen basierend auf Zählungen
col1, col2, label
a, b , cat
b, b1, , mouse
.
.
.........., elephant
.........., mouse
und die value_counts
für Etiketten Säule:
df.dataframe.value_counts:
cat: 7599
mouse: 6458
dog: 5100
elephant: 5000
ich mindestens N Zeilen auswählen möge von jedem Etikett Kategorie zufällig so, dass meine value_counts geworden:
cat: N
mouse: N
dog: N
elephant: N
gibt es eine "pandoic" Art, dies zu tun?
Um diesen Fall für einen optimalen 'N' Wert zu verallgemeinern, könnte man hinzufügen' N = df.label.value_counts (normalisieren = True) .iloc [-1] * df.shape [ 0] ', von dem die Länge der niedrigsten Zählung gefunden wurde, um' .head' darauf zu nennen. –
@NickilMaveli, danke! Ich habe es der Antwort hinzugefügt – MaxU