2017-03-02 4 views
0

Ich möchte mich PCA auf die Kaggle Titanic datasetKorrespondenz zwischen PCA Hauptkomponenten und die ursprünglichen Variablen

Denn ich bin jetzt anzuwenden nur die Spalten nehmen, die numerische Werte haben und die NaN-Werte fallen, also ich habe fünf Variablen, eigentlich vier, wenn wir die abhängige Variable ignorieren ('Survived').

enter image description here

Ich habe dies in einem Datenrahmen df geladen, wenn ich fünf Komponenten nahm PCA:

pca_model = PCA(n_components=5) 
pca_model.fit(df) 
pca_model.explained_variance_ratio_ 

[ 9.30197643e-01 6.93699966e-02 2.24377672e-04 1.49076254e-04 
    5.89069784e-05] 

Ich habe, dass 93 Prozent der Varianz von der ersten Komponente kommt. Ist es möglich, wie kann ich dieselben Werte von den ursprünglichen Variablen erhalten? Z.B. Alter -> 0.3 der Varianz Tarif -> 0.6

Kann ich nun angeben, welcher Prozentsatz der Hauptkomponente von jeder der ursprünglichen Variablen gegeben ist?

Antwort

1

Jede Komponente der PCA ist eine lineare Kombination aller ursprünglichen Variablen. Sie können die Rolle jeder ursprünglichen Variablen in verschiedenen PCA-Komponenten mit pca_model.components_ beobachten.

Verwandte Themen