I 1000 Genom VCF-Dateien von der 1000genomes Website heruntergeladen haben, mit:Dateien, wenn entpackten sind viel größer (60x) als gz
wget ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/20130502//*.gz
Ich habe versucht, gzip zu verwenden, um diese Dateien zu entpacken, aber sie entpackt ein viel größer als die Originale. Zum Beispiel war die erste Datei (für Chromosom 1) 1,1 GB komprimiert, aber erweitert auf 65,78 GB.
Ich denke, es könnte ein Problem mit gzip sein, habe ich zwei andere Methoden ausprobiert. Eine war, das Annotations-Tool snpEff direkt in der .gz-Datei auszuführen und die andere zcat, um die Datei zu entpacken. In beiden Fällen waren die Dateigrößen jedoch ähnlich groß.
Ich gehe davon aus, dass das nicht stimmen kann, aber ich weiß nicht, warum das der Fall ist. Hat jemand ähnliches erlebt?
Mmmmm ... Ich denke, dass es für uns offensichtlich ist, dass eine 'komprimierte' Datei eine kleinere Größe als die ursprüngliche 'unkomprimierte' Datei hat ... Ich sehe das nicht als Anomalie, eigentlich ist es das ziemlich normal, zumindest in diesem Bereich .... – Hackerman
Woher hast du die ursprünglichen Dateigrößen? Die FTP-Site scheint nur die komprimierten Versionen anzubieten. Überprüfen Sie den Start und das Ende der Dateien; sieht es richtig aus? –
Ich bin mir bewusst, dass eine komprimierte Datei kleiner sein wird, aber ist das so viel eine Verringerung der Größe möglich? Der Anfang und das Ende der Dateien sehen so aus, wie sie es sollten. – spiral01