Python - Behältergrößen von niedrigsten Varianz für die Klassifizierung

ich meine Funktion ‚Alter‘ möchte aus einer kontinuierlichen Variablen ändern, um eine kategorische Variable Altersstufen für binäre Klassifikation, wie folgt aus:Python - Behältergrößen von niedrigsten Varianz für die Klassifizierung

df['Age'] = pd.cut(df['Age'], [0,6,12,16,65,90] ,labels=['0-6','6-12','12-16','16-65','65-90'])

aber ich möchte es optimal aufteilen, damit die Daten möglichst effizient klassifiziert werden können. d. h. die Varianz der Klassen innerhalb der Altersbereiche wird minimiert, ohne dass sie überanstrengt werden.

Gibt es ein Paket mit einer Methode, die die Varianz beim Teilen solcher Daten minimieren kann, oder muss ich selbst eine schreiben?

Quelle

2017-06-30 ElkanaTheGreat

Vielleicht können Sie dazu sklearn.cluster verwenden.

Quelle

2017-07-02 16:08:08 xiaoyi

Python - Behältergrößen von niedrigsten Varianz für die Klassifizierung

Antwort

Verwandte Themen