Ich habe einen Datensatz wie folgt aus:Wie viele Arten von Kriterien, um zu messen, welche Eigenschaft die Kennzeichnung besser unterscheiden?
label feature1 feature2 feature3 feature4 ...
0 value11 value21 value31
1 value12 value22 ...
4 value13 value23 ...
2 value14 value24 ...
1 value15 value25 ...
3 value16 value26 ...
...
- Der Wert von
label
{0,1,2,3,4}
feature1
Bereiche0
-10000
feature2
Bereiche-4
-3
- und so weiter sein kann
Für feature1
und feature2
, ich möchte überprüfen, welche Funktion kann die Bezeichnung besser unterscheiden, wie viele Möglichkeiten, um es zu machen?
Ich habe die folgenden Pläne gedacht:
- Kontrolle der Pearson-Korrelation zwischen Etikett und verfügen über
- Prüfung die Varianz von
feature1
undfeature2
? Aber sie haben unterschiedliche Reichweite. - simultan
feature1
undfeature2
verwenden, um einen Entscheidungsbaum zu teilen und zu prüfen, welches Feature einen größeren Informationsgewinn hat. - eine lineare Regression mit
feature1
undfeature2
machen und den Koeffizienten überprüfen? - Grundstück der Verteilung Grundstück von
feature1
undfeature2
aber ohne die Informationen des Etiketts
I, welche Methode des folgenden fest ist genug, um zu wissen? Gibt es noch andere bessere Methoden? Welche Methode ist die beste? Danke im Voraus.