Ich versuche, PCA zu verwenden, um einige Hauptkomponenten von K auszuwählen.So verwenden Sie PCA auf dem Testset (Code)
Ich verstehe, dass man PCA auf dem Test-Set NICHT erneut ausführen sollte, aber die Eigenvektoren verwenden, die beim Modellieren des Trainingssatzes gefunden wurden.
Ich habe 2 CSV ist - Eins gesetzt Ausbildung,
Der andere ein Test-Set (ohne das Etikett pro Datensatz)
PCA-Prozess auf dem Trainingssatz mit der getan wird folgender code:
Nachdem ich fertig bin, ein Modell mit dem Trainingssatz zu bauen, müsste ich die Testi laden ng setze und führe mein Vorhersagemodell darauf aus.
Die Schwierigkeiten, die ich habe, im Sinne von ‚Wie es codieren?‘:
Wie K extrahieren PC nach dem Ausführen von PCA (auf der Ausbildung (Wird basierend auf Screeplot gewählt werden) Set), also basiert die Modellierung für das Trainingsszenario auf diesen? (Planung auf lineare Regression)
Wie K extrahierte PCs zu verwenden, wenn Sie das Modell auf einem tatsächlichen Testset ausführen möchten?
Soll ich zuerst die Merkmale im Testset nullstellen oder STD skalieren? Für das Trainingssatz verstehe ich
prcomp
Methode tut das schon für mich, also bin ich nicht sicher, ob ich es manuell auf dem Testset tun sollte.Sollte ich kategorische Variablen des Test-Sets mit Dummy-Variablen in numerische umwandeln, wie ich es mit dem Trainingssatz getan habe?
I DO der Grund verstehen - die gleichen Operationen auf den Trainingssatz angewandt wird, soll auch auf die Prüfung angewandt werden.
Aber - ich bin mir nicht sicher, was genau das in Bezug auf Code bedeutet.
Dank
Nicht das richtige Forum, um dies zu fragen. Sie können versuchen, [Cross Validated] (http://stats.stackexchange.com) –
@KarthikArelumugham, Wenn diese Frage auf Cross Validated, ich habe auch einen Kommentar, dass es nicht das richtige Forum. Siehe hier: http://stats.stackexchange.com/questions/262698/r-how-to-use-principal-component-on-test-set?noredirect=1#comment502651_262698 – Adiel