2017-06-30 3 views
1

ich meine Funktion ‚Alter‘ möchte aus einer kontinuierlichen Variablen ändern, um eine kategorische Variable Altersstufen für binäre Klassifikation, wie folgt aus:Python - Behältergrößen von niedrigsten Varianz für die Klassifizierung

df['Age'] = pd.cut(df['Age'], [0,6,12,16,65,90] ,labels=['0-6','6-12','12-16','16-65','65-90']) 

aber ich möchte es optimal aufteilen, damit die Daten möglichst effizient klassifiziert werden können. d. h. die Varianz der Klassen innerhalb der Altersbereiche wird minimiert, ohne dass sie überanstrengt werden.

Gibt es ein Paket mit einer Methode, die die Varianz beim Teilen solcher Daten minimieren kann, oder muss ich selbst eine schreiben?

Antwort

0

Vielleicht können Sie dazu sklearn.cluster verwenden.

Verwandte Themen