Ich möchte mich PCA auf die Kaggle Titanic datasetKorrespondenz zwischen PCA Hauptkomponenten und die ursprünglichen Variablen
Denn ich bin jetzt anzuwenden nur die Spalten nehmen, die numerische Werte haben und die NaN-Werte fallen, also ich habe fünf Variablen, eigentlich vier, wenn wir die abhängige Variable ignorieren ('Survived').
Ich habe dies in einem Datenrahmen df geladen, wenn ich fünf Komponenten nahm PCA:
pca_model = PCA(n_components=5)
pca_model.fit(df)
pca_model.explained_variance_ratio_
[ 9.30197643e-01 6.93699966e-02 2.24377672e-04 1.49076254e-04
5.89069784e-05]
Ich habe, dass 93 Prozent der Varianz von der ersten Komponente kommt. Ist es möglich, wie kann ich dieselben Werte von den ursprünglichen Variablen erhalten? Z.B. Alter -> 0.3 der Varianz Tarif -> 0.6
Kann ich nun angeben, welcher Prozentsatz der Hauptkomponente von jeder der ursprünglichen Variablen gegeben ist?