2017-06-20 3 views
-1

I 1000 Genom VCF-Dateien von der 1000genomes Website heruntergeladen haben, mit:Dateien, wenn entpackten sind viel größer (60x) als gz

wget ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/20130502//*.gz 

Ich habe versucht, gzip zu verwenden, um diese Dateien zu entpacken, aber sie entpackt ein viel größer als die Originale. Zum Beispiel war die erste Datei (für Chromosom 1) 1,1 GB komprimiert, aber erweitert auf 65,78 GB.

Ich denke, es könnte ein Problem mit gzip sein, habe ich zwei andere Methoden ausprobiert. Eine war, das Annotations-Tool snpEff direkt in der .gz-Datei auszuführen und die andere zcat, um die Datei zu entpacken. In beiden Fällen waren die Dateigrößen jedoch ähnlich groß.

Ich gehe davon aus, dass das nicht stimmen kann, aber ich weiß nicht, warum das der Fall ist. Hat jemand ähnliches erlebt?

+0

Mmmmm ... Ich denke, dass es für uns offensichtlich ist, dass eine 'komprimierte' Datei eine kleinere Größe als die ursprüngliche 'unkomprimierte' Datei hat ... Ich sehe das nicht als Anomalie, eigentlich ist es das ziemlich normal, zumindest in diesem Bereich .... – Hackerman

+0

Woher hast du die ursprünglichen Dateigrößen? Die FTP-Site scheint nur die komprimierten Versionen anzubieten. Überprüfen Sie den Start und das Ende der Dateien; sieht es richtig aus? –

+0

Ich bin mir bewusst, dass eine komprimierte Datei kleiner sein wird, aber ist das so viel eine Verringerung der Größe möglich? Der Anfang und das Ende der Dateien sehen so aus, wie sie es sollten. – spiral01

Antwort

1

Ich habe die Chromosom 1-Datei ausgecheckt und es ist in Ordnung. Ich nehme an, der Rest ist auch. Ja, Daten, die sehr redundant sind, können so viel komprimieren. Es ist nur 60: 1 komprimiert, wobei gzip so viel wie 1032: 1 komprimieren kann.

Der Stream wird einzeln in indizierte ZIP-Dateien von 64 KB unkomprimierter Daten aufgeteilt, um sie zu indizieren. (Die zugehörigen "tbi" -Dateien enthalten die Positionen jedes Stücks in der großen gzip-Datei.) Hätten sie es nur als einzelnen Stream oder mit weit auseinander liegenden Indexpunkten komprimiert, wäre es etwa 68: 1 komprimiert worden.

+0

Danke für Ihre Antwort Mark. Es ergibt sich aus dem Grund für den großen Unterschied, dass die meisten Daten aus den Allel-Repräsentationen bestehen: 0 | 0 oder 1 | 0 ohne weitere Informationen in jeder Spalte. Daher besteht der größte Teil der Datei aus langen Zeilen von 0 | 0s. – spiral01

Verwandte Themen