2017-02-21 4 views
2

Ich habe Schwierigkeiten, meine Tabellen im Variant Call Format (VCF) mit R zu lesen. Jede Datei hat einige Kommentarzeilen, die mit "##" beginnen und dann die Header, beginnend mit "#".Tabelle in R mit Kommentarzeilen beginnend mit "##" lesen

## contig=<ID=OTU1431,length=253> 
## contig=<ID=OTU915,length=253> 
#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT /home/sega/data/bwa/reads/0015.2142.fastq.q10sorted.bam 
Eubacterium_ruminantium_AB008552 56 . C T 228 . DP=212;AD=0,212;VDB=0;SGB=-0.693147;MQ0F=0;AC=2;AN=2;DP4=0,0,0,212;MQ=59 GT:PL 1/1:255,255,0 

Wie kann ich solche Tabelle lesen, ohne einen Header zu verpassen? Mit read.table() mit comment.char = '##' einen Fehler zurück: "ungültig 'comment.char' Argument"

Antwort

3

Wenn Sie VCF lesen möchten, können Sie auch versuchen, nur readVcf zu verwenden von VariantAnnotation in Bioconductor. https://bioconductor.org/packages/release/bioc/html/VariantAnnotation.html

Ansonsten kann ich empfehlen die fread Funktion in data.table. Es ermöglicht Ihnen, das überspringen Argument zu verwenden, um den Import zu ermöglichen, wenn eine Teilzeichenfolge gefunden wurde.

z.B.

fread("test.vcf", skip = "CHROM") 

sollte funktionieren.

+2

** fread ** -Funktion mit _skip_ argumentnt war wirklich hilfreich. Vielen Dank. –