BlockquoteVorschläge zu Feature-Auswahltechniken?
Ich bin Student und Anfänger in Machine Learning. Ich möchte Feature
Auswahl von Spalten zu tun. Mein Datensatz ist 50000 X 370 und es ist ein binäres Klassifizierungsproblem. Zuerst habe ich die Spalten mit std.deviation = 0 entfernt, dann habe ich doppelte Spalten entfernt, danach habe ich Top 20 Features mit dem höchsten ROC-Kurvenbereich ausgecheckt. Was sollte der nächste Schritt sein, um PCA zu machen? Kann jemand eine Abfolge von Schritten angeben, die bei der Auswahl der Merkmale zu beachten sind?
Okay, ich habe es für den ersten Teil. Können Sie den zweiten Teil des Problems kommentieren? –
Es gibt keine feste Sequenz von Schritten. Alle von Ihnen genannten Vorverarbeitungsschritte sind in den meisten Fällen sinnvoll. Andere haben zusätzliche Schritte wie L1-Regularisierung oder Random Forest erwähnt, die ebenfalls gewisse Vorteile haben. Aber mein wichtigster Rat ist: Übertreib es nicht. Überlassen Sie etwas Arbeit für Ihren Lernalgorithmus. –