0

BlockquoteVorschläge zu Feature-Auswahltechniken?

Ich bin Student und Anfänger in Machine Learning. Ich möchte Feature
Auswahl von Spalten zu tun. Mein Datensatz ist 50000 X 370 und es ist ein binäres Klassifizierungsproblem. Zuerst habe ich die Spalten mit std.deviation = 0 entfernt, dann habe ich doppelte Spalten entfernt, danach habe ich Top 20 Features mit dem höchsten ROC-Kurvenbereich ausgecheckt. Was sollte der nächste Schritt sein, um PCA zu machen? Kann jemand eine Abfolge von Schritten angeben, die bei der Auswahl der Merkmale zu beachten sind?

Antwort

0

Sie machen bereits eine Menge Vorverarbeitung. Der einzige zusätzliche Schritt, den ich empfehle, ist die Normalisierung der Werte nach PCA. Dann sollten Ihre Daten bereit sein, in Ihren Lernalgorithmus eingegeben zu werden.

Oder möchten Sie PCA vermeiden? Wenn die Korrelation zwischen Ihren Funktionen nicht zu stark ist, könnte dies in Ordnung sein. Überspringen Sie PCA und normalisieren Sie die Werte.

+0

Okay, ich habe es für den ersten Teil. Können Sie den zweiten Teil des Problems kommentieren? –

+0

Es gibt keine feste Sequenz von Schritten. Alle von Ihnen genannten Vorverarbeitungsschritte sind in den meisten Fällen sinnvoll. Andere haben zusätzliche Schritte wie L1-Regularisierung oder Random Forest erwähnt, die ebenfalls gewisse Vorteile haben. Aber mein wichtigster Rat ist: Übertreib es nicht. Überlassen Sie etwas Arbeit für Ihren Lernalgorithmus. –

0

Sie können versuchen, Techniken/Algorithmen folgende:

  1. L1 Regularisierung: Diese spärlichen Merkmalsmatrix generieren; Die meisten Feature-Gewichte sind Null. Aber diese Technik ist nützlich, wenn Sie einen hochdimensionalen Datensatz haben, der in Ihrem Fall wahr ist. Es gibt Algorithmen, die Regularisierung nicht unterstützen.

  2. Sequentielle Funktionsauswahl: Kann für Algorithmen nützlich sein, die die Regularisierung nicht unterstützen. Solche Algorithmen wählen automatisch eine Untermenge von Merkmalen aus, die für das Problem relevanter sind. Mehr dazu finden Sie hier: (1) Comparative Study of Techniques for Large Scale Feature Selection, F. Ferri, P. Pudil, M. Hatef und J. Kittler. Vergleichende Untersuchung von Techniken zur Auswahl großer Merkmale. Mustererkennung in der Praxis IV, Seiten 403-413, 1994. (2) Feature selection in scikit-learn.

  3. Dimentionality Reduktion: PCA (Hauptkomponentenanalyse) und LDA (Linear Diskriminanzanalyse) wird gut funktionieren, wenn Ihr Problem ist linear heißt Ihre Daten linear trennbar ist. Wenn Daten nicht linear trennbar sind, können Sie eine Kernkomponentenanalyse durchführen.

  4. Feature-Wichtigkeit mit Random Forest: Dies ist eine Ensemble-Technik, die Ihnen Feature-Importanzen (numerische Werte) gibt. Sie können Funktionen mit geringer Wichtigkeit verwerfen.

+0

Ich weiß, dass Random Forest auf Informationsgewinn arbeitet. Also, wenn ich nur die ersten 20 Variablen wähle, deren Informationsgewinn max. Dann kann ich sagen, dass ich nicht pca, Regularisierung und andere Methoden tun muss, da ich Top 20 Leistungsmerkmale habe? Habe ich Recht damit? –

+0

Wenn Sie bei der Auswahl der besten 20 Merkmale sehr genau sind, lautet die Antwort ja. –