Compression 解压后的文件比.gz大很多(60倍)

Compression 解压后的文件比.gz大很多(60倍),compression,gzip,vcf-variant-call-format,Compression,Gzip,Vcf Variant Call Format,我已从1000genomes网站下载了1000个genome.vcf文件,使用: wget ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/20130502//*.gz 我尝试使用gzip解压这些文件,但它们解压后的大小比原始文件大得多。例如,第一个文件(染色体1)压缩了1.1gb,但扩展到65.78gb 考虑到这可能是gzip的问题,我尝试了另外两种方法。一个是直接在.gz文件上运行注释工具snpEff,另一个是使用zcat解压文件。然而,在

我已从1000genomes网站下载了1000个genome.vcf文件,使用:

wget ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/20130502//*.gz
我尝试使用gzip解压这些文件,但它们解压后的大小比原始文件大得多。例如,第一个文件(染色体1)压缩了1.1gb,但扩展到65.78gb

考虑到这可能是gzip的问题,我尝试了另外两种方法。一个是直接在.gz文件上运行注释工具snpEff,另一个是使用zcat解压文件。然而,在这两种情况下,文件大小都同样巨大


我认为这是不对的,但不知道为什么会这样。有人有过类似的经历吗?

我检查了1号染色体的文件,结果很好。我想其他人也一样。是的,高度冗余的数据可以压缩那么多。它只压缩了60:1,其中gzip能够压缩1032:1


为了索引的目的,流被分解为单独压缩的64K未压缩数据块。(相关的“tbi”文件包含大gzip文件中每个片段的位置。)如果他们只是将其压缩为单个流,或者索引点相距稍远,它将压缩约68:1。

我检查了染色体1文件,结果很好。我想其他人也一样。是的,高度冗余的数据可以压缩那么多。它只压缩了60:1,其中gzip能够压缩1032:1


为了索引的目的,流被分解为单独压缩的64K未压缩数据块。(相关的“tbi”文件包含大gzip文件中每个片段的位置。)如果他们只是将其压缩为单个流,或者索引点相距稍远,它会压缩到68:1左右。

mmmmmmm…我认为我们中的任何人都必须清楚地看到,
压缩的
文件的大小比原始的
未压缩的
文件小…我不认为这是一种异常,事实上,这是很正常的,至少在这个领域是如此…你从哪里得到原始文件的大小?FTP站点似乎只提供压缩版本。检查文件的开始和结束;它看起来正确吗?我知道压缩文件会更小,但大小会减少这么多吗?文件的开头和结尾看起来应该是这样的。是的,对于像文本一样的文件,有可能获得这样的压缩率ommmm…我认为我们必须清楚地看到,
压缩的
文件比原始的
未压缩的
文件小…我不认为这是异常现象,实际上,这很正常,至少在这个领域……你从哪里得到原始文件大小的?FTP站点似乎只提供压缩版本。检查文件的开始和结束;它看起来正确吗?我知道压缩文件会更小,但大小会减少这么多吗?文件的开头和结尾看起来应该是这样的。是的,对于类似文本的文件,有可能获得答案标记的压缩比。结果表明,这是由于巨大差异的原因是,大多数数据都由等位基因表示组成:0 | 0或1 | 0,每列中没有其他信息。因此,文件的大部分由0 | 0的长行组成。感谢您的回答。结果表明,这是由于巨大差异的原因是,大多数数据都由等位基因表示组成:0 | 0或1 | 0,每列中没有其他信息。因此,文件的大部分由0 | 0的长行组成。