2016-04-24 6 views
-2

Ich habe einen Datensatz, der 368 unabhängige Variablen enthält, und ich verwende derzeit Random Forest Classification, um zu bestimmen, welche Variablen das Verhalten der Daten am wichtigsten sind. Ich habe dies bereits in Python getan, und haben so etwas wie dies, wie mein Ergebnis gefunden:Python: Erhalten Sie die 10 wichtigsten Variablen

[(0.3748, 'var38'), (0.1738, 'var15'), (0.0294, 'saldo_medio_var5_ult3'), (0.0281, 'saldo_medio_var5_hace3'),...] 

Ergebnisse erhält man für alle 368 Variablen. Der Versuch, all dies in einem Graphen darzustellen, wäre unnötig. Daher versuche ich, Python nur die 10 wichtigsten Variablen aufzulisten.

Wie würde ich Python dies tun, und wie würde ich dies auch in einem Diagramm anzeigen? Jede Hilfe würde sehr geschätzt werden!

+0

Was macht sie * wichtig *? –

+0

Die Zahlen links vom Variablennamen. Je höher die Zahl, desto wichtiger ist diese Variable, um das Verhalten der Daten zu erklären. –

+1

also im Grunde 'lst.sort (reverse = True)' und die ersten zehn Werte zurückgenommen? –

Antwort

1

Angenommen, die Zahlen sind wichtig, einfach die Liste sortieren und die ersten zehn Elemente herausschneiden.

variables.sort() 
print variables[:10] 
Verwandte Themen