2016-10-18 2 views
-1

Ich habe einen Datensatz wie folgt aus:Wie viele Arten von Kriterien, um zu messen, welche Eigenschaft die Kennzeichnung besser unterscheiden?

label feature1 feature2 feature3 feature4 ... 
0  value11 value21 value31 
1  value12 value22 ... 
4  value13 value23 ... 
2  value14 value24 ... 
1  value15 value25 ... 
3  value16 value26 ... 
... 
  • Der Wert von label{0,1,2,3,4}
  • feature1 Bereiche 0-10000
  • feature2 Bereiche -4-3
  • und so weiter sein kann

Für feature1 und feature2, ich möchte überprüfen, welche Funktion kann die Bezeichnung besser unterscheiden, wie viele Möglichkeiten, um es zu machen?

Ich habe die folgenden Pläne gedacht:

  • Kontrolle der Pearson-Korrelation zwischen Etikett und verfügen über
  • Prüfung die Varianz von feature1 und feature2? Aber sie haben unterschiedliche Reichweite.
  • simultan feature1 und feature2 verwenden, um einen Entscheidungsbaum zu teilen und zu prüfen, welches Feature einen größeren Informationsgewinn hat.
  • eine lineare Regression mit feature1 und feature2 machen und den Koeffizienten überprüfen?
  • Grundstück der Verteilung Grundstück von feature1 und feature2 aber ohne die Informationen des Etiketts

I, welche Methode des folgenden fest ist genug, um zu wissen? Gibt es noch andere bessere Methoden? Welche Methode ist die beste? Danke im Voraus.

Antwort

1

Ein sehr verbreiteter Ansatz besteht darin, einen Kreuzvalidierungssatz zu verwenden und eine "Modellauswahl" durchzuführen, indem Leistungskennzahlen wie Präzision, Abruf und F1-Wert gemessen werden. Ihr Workflow sei (in Pseudo-Code, nicht real code):

  • Liste der Modelle zu bewerten = definieren Sie mehrere Modellkandidaten, zum Beispiel
    eine Funktion, zwei Funktionen, Polynom-Funktionen.
  • für jedes Modell „m“ auf von Ihnen definierten

    • Zuge des Modell „m“ auf dem Zug-Datensatz

    • erhalten unter Verwendung von Kreuzvalidierung der Performance-Metriken

      gesetzt
    • klicken, um zu bewerten Ihr optimales Modell basierend auf Ihren Leistungsmesswerten (erhalten aus dem Kreuzvalidierungssatz)

Dies ist eine sehr häufige ein mächtiger Ansatz. Sie können mehr Informationen über Andrew Ng finden. Videos zu diesem Thema auf youtube

Verwandte Themen