2013-01-21 3 views
5

Ich bin über viele ähnliche Fragen im Internet gestolpert, konnte aber keine finden, die mein Problem löst, das ich verstehen kann. Ich würde mich über einige Erklärungen hier freuen, um mein Verständnis zu unterstützen. Danke im Voraus!Wie ermittelt man die Bedeutung von Variablen in PCA mit Matlab?

So

[COEFF,SCORE,latent,tsquare] = princomp(X) 

Ich verstehe, für coeff, dass die Spalten in der Reihenfolge abnehmender Komponentenvarianz sind. Aber weiß ich die Bedeutung meiner Variablen (Original-Dataset), nicht die Bedeutung der Hauptkomponente (PC), wie die Antwort von coeff könnte. Gibt es eine Möglichkeit, die Bedeutung der Variablen, die ich habe, zu bewerten?

Ich habe gesehen, dass viele Statistik-Software in der Lage ist, dies zu tun, zeigt, welche ursprünglichen Variablen am meisten zum Plot beitragen, und welche diejenigen sind, die entfernt werden können, um übermäßige Probleme zu vermeiden. Gibt es eine Möglichkeit, dies mit MatLab zu tun?

Mein Ziel ist es, die Daten in einem 2D-Diagramm zu plotten, was bedeutet, dass ich PC1 und PC2 verwenden werde, die die signifikanteste Komponentenvarianz enthalten. Woher weiß ich also, welche Variablen beibehalten werden sollten und welche verworfen werden sollten?

Kann mir das jemand erklären? Vielen Dank!

Antwort

2

Wenn Sie nur über eine Projektion Ihrer Daten in 2D-Ebene für die Visualisierung kümmern, dann mit allen Mitteln, die ersten beiden Koordinaten von jedem Punkt aus SCORE nehmen - das sind die Koordinaten, die Sie bezeichnen als PC1 und PC2 in Ihrer Frage.

Wenn Sie jedoch wissen mögen, welche die beiden Komponenten in X sind, die am meisten dazu beigetragen, PC1 und PC2 Sie die Einträge in den ersten beiden Spalten von COEFF mit maximalem Absolutwert finden müssen. Da die ersten beiden Spalten von COEFF die Linearkombination von Elementen in X darstellen, entstehen PC1 und PC2.

+0

Aber wie für den zweiten Teil erwähnten Sie den maximalen absoluten Wert in den ersten beiden Spalten von COEFF. Aber woher weißt du, aus welchen Variablen diese Werte stammen? Stehen sie in der gleichen Reihenfolge wie ich sie definiere? Weil ich weiß, dass die Spalten in COEFF in der Reihenfolge abnehmender Komponentenvarianz neu angeordnet werden, aber ich bin mir nicht sicher über die Zeilen. Willst du damit sagen, dass die Zeilen nicht neu geordnet sind und in der Reihenfolge meiner Eingaben gehalten werden? – maureen

+0

Ja, ich habe ein Problem mit dem zweiten Teil. Sorry hatte einige Probleme mit dem Beitrag früher .... – maureen

+0

@maureen Kennen Sie lineare Umsetzungen mit Matrizen? – Shai

Verwandte Themen