Indexing 我可以在vcf.gz文件上使用tabix吗?

Indexing 我可以在vcf.gz文件上使用tabix吗?,indexing,merge,gzip,vcf-vcard,Indexing,Merge,Gzip,Vcf Vcard,作为一个初学者,我可能有一个愚蠢的问题,但我有几个压缩的不同个人的VCF文件(.VCF.gz)。我想通过使用VCF merge将这些文件合并到一个包含所有个人的VCF文件中 但是,这需要使用bgzip对文件进行实际压缩,并使用tabix编制索引。有人知道我是否可以从一个.vcf.gz文件转换成一个tabix索引和bgzip文件,而不首先解压缩它(它需要大量存储,文件非常大) 谢谢 如果我理解正确,您有: file.vcf.gz这是一个gzip压缩的vcf文件(不是块gzip压缩的) 您希望:

作为一个初学者,我可能有一个愚蠢的问题,但我有几个压缩的不同个人的VCF文件(.VCF.gz)。我想通过使用VCF merge将这些文件合并到一个包含所有个人的VCF文件中

但是,这需要使用bgzip对文件进行实际压缩,并使用tabix编制索引。有人知道我是否可以从一个.vcf.gz文件转换成一个tabix索引和bgzip文件,而不首先解压缩它(它需要大量存储,文件非常大)


谢谢

如果我理解正确,您有:

  • file.vcf.gz
    这是一个gzip压缩的vcf文件(不是块gzip压缩的)
您希望:

  • file.vcf.bgz
    ,这是一个块gzip压缩的vcf文件,其内容与
    file.vcf.gz
    相同,以及
  • file.vcf.bgz.tbi
    file.vcf.bgz
您希望在不解压缩的情况下进行此转换

不幸的是,我不知道如何避免解压数据以便以阻塞形式重新压缩。通过流式传输数据,您可以保持内存成本不变:

gzip --decompress --to-stdout file.vcf.gz \
  | bgzip --index --index-name file.vcf.bgz.tbi -@4 \
  > file.vcf.bgz
第一行解压
file.vcf.gz
,将解压后的输出写入标准输出流。第二行块gzip压缩标准输入流(将压缩数据写入标准输出流),并生成名为
file.vcf.bgz.tbi
的索引文件。
-@4
告诉
bgzip
使用四个线程。如果您的机器有更多的内核,则可以增加该值。最后一行将块gzip压缩输出定向到名为
file.vcf.bgz
的文件

在我的MacBookPro上,这个过程花了一分钟重新压缩214MB的文件


注意:这不会删除
文件.vcf.gz
,如果您不再需要它,您需要自己删除它。

如果我理解正确,您有:

  • file.vcf.gz
    这是一个gzip压缩的vcf文件(不是块gzip压缩的)
您希望:

  • file.vcf.bgz
    ,这是一个块gzip压缩的vcf文件,其内容与
    file.vcf.gz
    相同,以及
  • file.vcf.bgz.tbi
    file.vcf.bgz
您希望在不解压缩的情况下进行此转换

不幸的是,我不知道如何避免解压数据以便以阻塞形式重新压缩。通过流式传输数据,您可以保持内存成本不变:

gzip --decompress --to-stdout file.vcf.gz \
  | bgzip --index --index-name file.vcf.bgz.tbi -@4 \
  > file.vcf.bgz
第一行解压
file.vcf.gz
,将解压后的输出写入标准输出流。第二行块gzip压缩标准输入流(将压缩数据写入标准输出流),并生成名为
file.vcf.bgz.tbi
的索引文件。
-@4
告诉
bgzip
使用四个线程。如果您的机器有更多的内核,则可以增加该值。最后一行将块gzip压缩输出定向到名为
file.vcf.bgz
的文件

在我的MacBookPro上,这个过程花了一分钟重新压缩214MB的文件


注意:这不会删除
文件.vcf.gz
,如果您不再需要它,您需要自己删除它。

谢谢,我想这样做会有用的!非常有帮助:)那么,如果我们将文件.vcf.bgz重命名为file.vcf.gz,是否100%可以,因为它们是相同的文件?我不完全理解您的问题@bapors。更改文件名永远不会更改其内容。的确,块gzip压缩文件也是一个有效的gzip压缩文件(反之亦然)。谢谢,我想这样的东西会有用的!非常有帮助:)那么,如果我们将文件.vcf.bgz重命名为file.vcf.gz,是否100%可以,因为它们是相同的文件?我不完全理解您的问题@bapors。更改文件名永远不会更改其内容。的确,块gzip压缩文件也是有效的gzip压缩文件(反之亦然)。