Ich möchte nur die Zeilen, die die Teilzeichenfolge und dann die Teilzeichenfolge Teilmenge enthalten. Ich kann den ersten Teil tun, aber ich weiß nicht, wie der Teil entfernenSubset ein DNAStringSet von Untermuster und entfernen Untermuster in R
Hier ist ein Beispiel
library(Biostrings)
myseq <-DNAStringSet(c("CCCATGAAAGATCGGAAGAGCACACGTCTGAACCCATGAA", "CCCATGAACATAGATCC", "CCCGTACAGATCACGTG"))
names(myseq) <- letters[1:3]
myseq
A DNAStringSet instance of length 3
width seq names
[1] 40 CCCATGAAAGATCGGAAGAGCACACGTCTGAACCCATGAA a
[2] 17 CCCATGAACATAGATCC b
[3] 17 CCCGTACAGATCACGTG c
Die Reihenfolge Ich mag AGATCGGAAGAGCACACGTCTGAA entfernen, die in der ersten Zeile.
matchPattern("AGATCGGAAGAGCACACGTCTGAA", myseq[[1]])
Views on a 40-letter DNAString subject
subject: CCCATGAAAGATCGGAAGAGCACACGTCTGAACCCATGAA
views:
start end width
[1] 9 32 24 [AGATCGGAAGAGCACACGTCTGAA]
die Teilmenge I wie folgt vor:
pat <- vmatchPattern("AGATCGGAAGAGCACACGTCTGAA", myseq)
myseq[ lapply(lapply(pat, isEmpty), function(x) x == FALSE) ]
A DNAStringSet instance of length 3
width seq names
[1] 40 CCCATGAAAGATCGGAAGAGCACACGTCTGAACCCATGAA a
[2] 0 b
[3] 0 c
Der Ausgang
A DNAStringSet instance of length 3
width seq names
[1] 11 CCCCCCATGAA a
[2] 0 b
[3] 0 c