R和压缩文件
我有大约1000个tar.gz文件(大约2GB/压缩文件),每个文件都包含一堆大的.tsv(以制表符分隔)文件,例如1.tsv、2.tsv、3.tsv、4.tsv等 我想在R中处理.tsv文件的子集(比如1.tsv,2.tsv),而不提取.tar.gz文件,以节省空间/时间 我试着四处寻找,但找不到一个库或例程来通过内存流传输tar.gz文件,并从中动态提取数据。在其他语言中,有一些方法可以有效地做到这一点。如果一个人在R里做不到这一点,我会感到惊讶R和压缩文件,r,file-io,io,gzip,tar,R,File Io,Io,Gzip,Tar,我有大约1000个tar.gz文件(大约2GB/压缩文件),每个文件都包含一堆大的.tsv(以制表符分隔)文件,例如1.tsv、2.tsv、3.tsv、4.tsv等 我想在R中处理.tsv文件的子集(比如1.tsv,2.tsv),而不提取.tar.gz文件,以节省空间/时间 我试着四处寻找,但找不到一个库或例程来通过内存流传输tar.gz文件,并从中动态提取数据。在其他语言中,有一些方法可以有效地做到这一点。如果一个人在R里做不到这一点,我会感到惊讶 有人知道在R中实现这一点的方法吗?非常感谢您
有人知道在R中实现这一点的方法吗?非常感谢您的帮助!注意:解压/解压文件不是一个选项。我想提取相关字段并将其保存在data.frame中,而不提取文件可能与否重复。解压缩或取消错误文件不是一个选项。我想在不解压缩的情况下阅读它的内容查看
?untar
。你可以列出文件并解析它们,我已经看过了。即使在列出之后,您仍然需要提取文件来处理它们。如果您要将所需文件(1.tsv,2.tsv)放入内存并使用它们,您需要在某个时候提取这些文件,对吗?使用untar,您可以指定files=c(“1.tsv”、“2.tsv”)
来仅提取这些文件。可能重复编号。解压或解压文件不是选项。我想在不解压缩的情况下阅读它的内容查看?untar
。你可以列出文件并解析它们,我已经看过了。即使在列出之后,您仍然需要提取文件来处理它们。如果您要将所需文件(1.tsv,2.tsv)放入内存并使用它们,您需要在某个时候提取这些文件,对吗?使用untar,您可以指定files=c(“1.tsv”、“2.tsv”)
仅提取这些文件。