2017-05-04 5 views
1

Ich fragte mich, ob ich die Daten für die Durchführung von PCA auf meine Proben in R transponieren muss. Ich verwende die integrierte Funktion prcomp(). Mein Datensatz ist RNA-Seq-Expressionsdaten und die Spalten sind Proben und Zeilen sind Genausdrücke. Es scheint, dass es in beiden Richtungen funktioniert, aber gibt es einen Konsens darüber, was in den Zeilen/Spalten sein sollte? Vielen Dank!PCA mit Prcomp für RNA Seq in R

+1

In der Tat wird es "in beide Richtungen", mathematisch gesprochen. Für die meisten Datenanalysen enthalten die Spalten jedoch Variablen von Interesse (Gene in Ihrem Fall), die Zeilen enthalten Beobachtungen dieser Variablen (in Ihrem Fall Beispiele). – neilfws

+0

Danke @neilfws! Nur um zu verdeutlichen, bin ich daran interessiert, die Beziehungen zwischen den Proben zu sehen, indem ich Gene als Vektoren benutze. Also sollten noch die Gene in den Spalten sein? –

Antwort

0

Die meisten Biostatistik-R-Pakete tun dies, indem sie den Datenrahmen transponieren. Ich gebe Ihnen einen Beweis:

Die RUV SVD Faktorisierungsmethode ist in RNA-Seq üblich. Sehen Sie es Quellcode:

https://github.com/drisso/RUVSeq/blob/master/R/RUVg-methods.R

if(isLog) { 
    Y <- t(x) 
} else { 
    Y <- t(log(x+epsilon)) 
} 

x ist das Gen-Matrix-Tabelle. Siehst du den Transponiervorgang? Später im Code gibt das Paket die transponierte Matrix (Y) in die svd-Funktion ein.

svdWa <- svd(...) 

Um das Leben und andere einfacher zu machen, möchten Sie möglicherweise Gene in Ihre Spalten und Proben in Ihren Zeilen setzen.