Ich weiß, dass die Feature-Auswahl mir hilft, Features zu entfernen, die wenig beitragen können. Ich weiß, dass PCA dazu beiträgt, möglicherweise korrelierte Merkmale in einem zu reduzieren und die Dimensionen zu reduzieren. Ich weiß, dass die Normalisierung Funktionen auf die gleiche Skala umwandelt.Richtige Reihenfolge der Funktionsauswahl, PCA und Normalisierung?
Aber gibt es eine empfohlene Reihenfolge für diese drei Schritte? Logischerweise würde ich denken, dass ich schlechte Features zuerst durch Feature-Auswahl aussortieren, dann normalisieren und schließlich PCA verwenden sollte, um Dimensionen zu reduzieren und die Features so unabhängig voneinander wie möglich zu machen.
Ist diese Logik korrekt?
Bonus Frage - gibt es noch weitere Dinge zu tun (Vorverarbeitung oder Transformation) zu den Funktionen vor dem Einführen in den Schätzer?
Diese Frage bezieht sich nicht direkt auf scikit-learn sondern eher auf die Theorie des maschinellen Lernens und gehört daher zu [Cross Validated] (https: // stats. stackexchange.com/help/on-topic). Wie auch immer, die richtige Antwort sollte lauten: Es kommt darauf an. In der Regel kommt ein Feature Selection-Schritt nach dem PCA (mit einem Optimierungsparameter, der die Anzahl der Features beschreibt, und Scaling kommt vor PCA. Je nach Problem ändert sich das. Vielleicht möchten Sie PCA nur auf einen Teil der Features anwenden. Einige Algorithmen nicht erforderlich, dass die Daten normalisiert werden usw. – Quickbeam2k1