Compression 解压后的文件比.gz大很多（60倍）_Compression_Gzip_Vcf Variant Call Format

Compression 解压后的文件比.gz大很多（60倍）

compression

Compression 解压后的文件比.gz大很多（60倍）,compression,gzip,vcf-variant-call-format,Compression,Gzip,Vcf Variant Call Format,我已从1000genomes网站下载了1000个genome.vcf文件，使用： wget ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/20130502//*.gz 我尝试使用gzip解压这些文件，但它们解压后的大小比原始文件大得多。例如，第一个文件（染色体1）压缩了1.1gb，但扩展到65.78gb 考虑到这可能是gzip的问题，我尝试了另外两种方法。一个是直接在.gz文件上运行注释工具snpEff，另一个是使用zcat解压文件。然而，在

我已从1000genomes网站下载了1000个genome.vcf文件，使用：

wget ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/20130502//*.gz

我尝试使用gzip解压这些文件，但它们解压后的大小比原始文件大得多。例如，第一个文件（染色体1）压缩了1.1gb，但扩展到65.78gb

考虑到这可能是gzip的问题，我尝试了另外两种方法。一个是直接在.gz文件上运行注释工具snpEff，另一个是使用zcat解压文件。然而，在这两种情况下，文件大小都同样巨大

我认为这是不对的，但不知道为什么会这样。有人有过类似的经历吗？

我检查了1号染色体的文件，结果很好。我想其他人也一样。是的，高度冗余的数据可以压缩那么多。它只压缩了60:1，其中gzip能够压缩1032:1

为了索引的目的，流被分解为单独压缩的64K未压缩数据块。（相关的“tbi”文件包含大gzip文件中每个片段的位置。）如果他们只是将其压缩为单个流，或者索引点相距稍远，它将压缩约68:1。

我检查了染色体1文件，结果很好。我想其他人也一样。是的，高度冗余的数据可以压缩那么多。它只压缩了60:1，其中gzip能够压缩1032:1

为了索引的目的，流被分解为单独压缩的64K未压缩数据块。（相关的“tbi”文件包含大gzip文件中每个片段的位置。）如果他们只是将其压缩为单个流，或者索引点相距稍远，它会压缩到68:1左右。

mmmmmmm…我认为我们中的任何人都必须清楚地看到，

压缩的

文件的大小比原始的

未压缩的

文件小…我不认为这是一种异常，事实上，这是很正常的，至少在这个领域是如此…你从哪里得到原始文件的大小？FTP站点似乎只提供压缩版本。检查文件的开始和结束；它看起来正确吗？我知道压缩文件会更小，但大小会减少这么多吗？文件的开头和结尾看起来应该是这样的。是的，对于像文本一样的文件，有可能获得这样的压缩率ommmm…我认为我们必须清楚地看到，

压缩的

文件比原始的

未压缩的

文件小…我不认为这是异常现象，实际上，这很正常，至少在这个领域……你从哪里得到原始文件大小的？FTP站点似乎只提供压缩版本。检查文件的开始和结束；它看起来正确吗？我知道压缩文件会更小，但大小会减少这么多吗？文件的开头和结尾看起来应该是这样的。是的，对于类似文本的文件，有可能获得答案标记的压缩比。结果表明，这是由于巨大差异的原因是，大多数数据都由等位基因表示组成：0 | 0或1 | 0，每列中没有其他信息。因此，文件的大部分由0 | 0的长行组成。感谢您的回答。结果表明，这是由于巨大差异的原因是，大多数数据都由等位基因表示组成：0 | 0或1 | 0，每列中没有其他信息。因此，文件的大部分由0 | 0的长行组成。