EDIT: Dachte, es könnte nützlich sein zu erwähnen, dass diese Daten die Ausgabe ist, die ich von Biomart bekam, als ich versuchte, Sequenzattribute auszugeben.R: Rearrange bestimmte Reihen von einspaltigen Datenrahmen in neue Spalte
Ich habe folgende genomischen Daten:
structure(list(Sequences = structure(c(2L, 10L, 3L, 8L, 9L, 1L,
5L, 4L, 6L, 7L), .Label = c(">ENSRNOG00000000902|Hsph1", ">ENSRNOG00000001136|Pebp1",
">ENSRNOG00000001214|Pfkl", "AGAGAGGCGAGCGGCGGAGAGCGGTGGCAAATACTGAACGCAGTCTCGCAGGGTAAGCCC",
"GAGCGATTGGGACCTCCCCTTTTGGATTGGTAGCTGAGCGGCAGTGGCGGCGGCTGCGTG",
"GAGGCATCTTCCCGGCCGGTCGGGAGCAGGAGGAGCACGCAGCGGATCCCAGGCAGAGGC",
"GGACCGGGCCAGCC", "GGCGGGGACAGGCGACAGCCGCGCGGAACGCAGAGCGGCGGGAGAGGAGCTCGGGCTCCT",
"GGTCTCTGCTGCCGTC", "GTTTAACTGCACTCGGGACTCGGCGCGCGCGTGTGTCTGTTCTCTCCATCGTC"
), class = "factor")), .Names = "Sequences", class = "data.frame", row.names = c(NA,
-10L))
Ich möchte die Daten neu angeordnet, so dass die erste Spalte das Gen ID info (zB für den ersten Fall zeigt, es wäre: „> ENSRNOG00000001136 | Pebp1“) und dann erscheinen die Linien des genomischen Codes darunter in der Spalte daneben. Beachten Sie, dass die Zeilen 7-10 mehrere Zeilen mit genetischem Code haben. Hier würden alle Strings unterhalb der Gen-ID-Information zu einer Zeile zusammengefügt anstatt über 4 getrennte Zeilen verteilt. Schließlich möchte ich auch das Symbol ">" entfernen, das vor jeder der Gen-IDs steht.
Die Endausgabe wäre also:
ID Sequence
ENSRNOG00000001136|Pebp1 GTTTAACTGCACTCGGGACTCGGCGCGCGCGTGTGTCTGTTCTCTCCATCGTC
ENSRNOG00000001214|Pfkl GGCGGGGACAGGCGACAGCCGCGCGGAACGCAGAGCGGCGGGAGAGGAGCTCGGGCTCCTGGTCTCTGCTGCCGTC
ENSRNOG00000000902|Hsph1 GAGCGATTGGGACCTCCCCTTTTGGATTGGTAGCTGAGCGGCAGTGGCGGCGGCTGCGTGAGAGAGGCGAGCGGCGGAGAGCGGTGGCAAATACTGAACGCAGTCTCGCAGGGTAAGCCCGAGGCATCTTCCCGGCCGGTCGGGAGCAGGAGGAGCACGCAGCGGATCCCAGGCAGAGGCGGACCGGGCCAGCC
zu beachten, dass dies nur die ersten paar Zeilen von ~ 2500 Zeilendatenrahmen ist. Die Lösung muss so allgemein sein, dass sie Situationen analysieren kann, in denen die Anzahl der Zeilen, die von der Sequenz belegt werden, mehr als die vier Zeilen im obigen Beispiel betragen kann.
die Identifikation ist immer von einem ähnlichen Format (dh die ENSRNO Teil immer die gleiche Länge, und dann ein Rohrsymbol begrenzt es, und dann gibt es einen anderen Abschnitt)? – TARehman
Ja. Die ID hat immer das gleiche Format (tatsächlich ist es "ENSRNO ** G **") und die Länge gefolgt vom Pipe-Symbol und dem Gen-Namen. Das gleiche Format für alle Fälle. – syntonicC
Und es wird nie einen Fall geben, in dem die ID in derselben Zeile beginnt, wie eine Genomsequenz endete, richtig? – TARehman