Korrespondenz zwischen PCA Hauptkomponenten und die ursprünglichen Variablen

Ich möchte mich PCA auf die Kaggle Titanic dataset Korrespondenz zwischen PCA Hauptkomponenten und die ursprünglichen Variablen

Denn ich bin jetzt anzuwenden nur die Spalten nehmen, die numerische Werte haben und die NaN-Werte fallen, also ich habe fünf Variablen, eigentlich vier, wenn wir die abhängige Variable ignorieren ('Survived').

Ich habe dies in einem Datenrahmen df geladen, wenn ich fünf Komponenten nahm PCA:

pca_model = PCA(n_components=5) 
pca_model.fit(df) 
pca_model.explained_variance_ratio_ 

[ 9.30197643e-01 6.93699966e-02 2.24377672e-04 1.49076254e-04 
    5.89069784e-05]

Ich habe, dass 93 Prozent der Varianz von der ersten Komponente kommt. Ist es möglich, wie kann ich dieselben Werte von den ursprünglichen Variablen erhalten? Z.B. Alter -> 0.3 der Varianz Tarif -> 0.6

Kann ich nun angeben, welcher Prozentsatz der Hauptkomponente von jeder der ursprünglichen Variablen gegeben ist?

Quelle

2017-03-02 Luis Ramon Ramirez Rodriguez

Jede Komponente der PCA ist eine lineare Kombination aller ursprünglichen Variablen. Sie können die Rolle jeder ursprünglichen Variablen in verschiedenen PCA-Komponenten mit pca_model.components_ beobachten.

Quelle

2017-03-02 22:53:59 Hossein

Korrespondenz zwischen PCA Hauptkomponenten und die ursprünglichen Variablen

Antwort

Verwandte Themen