如何打开和处理超重型800PB csv文件?

如何打开和处理超重型800PB csv文件?,csv,bigdata,Csv,Bigdata,如何打开一个800 PB的文件 这是一些数据科学竞赛的文件-807167556410028 kb=800005556410028 TB=~800PB 它被归档到600 mb,但我无法解压,因为它太大了。 可以用pandas读取压缩档案中的前1000行吗 这是部分回答,因为它只读取行数的chunksize p、 我用3mln行测试了它,它失败了,内存错误 p、 另外,这是我的winrar归档程序的错误!我安装了7zip,它显示它只有5GB!哈哈,这是一个很好的教训,有时候是程序,而不是数据集 退

如何打开一个800 PB的文件

这是一些数据科学竞赛的文件-807167556410028 kb=800005556410028 TB=~800PB

它被归档到600 mb,但我无法解压,因为它太大了。 可以用pandas读取压缩档案中的前1000行吗

这是部分回答,因为它只读取行数的chunksize

p、 我用3mln行测试了它,它失败了,内存错误


p、 另外,这是我的winrar归档程序的错误!我安装了7zip,它显示它只有5GB!哈哈,这是一个很好的教训,有时候是程序,而不是数据集

退一步。考虑什么样的ZIP压缩算法可以将800 PB转换成582MB。字典在zip文件的末尾,所以这是一个致命的不幸。@HansPassant,thx,我正在使用zipfile lib打开它并获取内存error@HansPassant,不理解文件末尾关于字典的这件事可能有一个很好的理由来解释为什么它是为了一场比赛。尝试确定使用的zip算法,读取RFC并编写一个针对该问题的算法。对于这个问题,并没有现成的解决方案(这是一种竞争的重点——若你们想了解它的话,这样的东西被认为是一个“拉链炸弹”)@ManfredRadlwimmer,什么是RFC?
import zipfile
archive = zipfile.ZipFile('bigfile.zip')
file = archive.open('big.csv')
textfilereader = pd.read_csv(file, chunksize=1000000)
df = textfilereader.get_chunk()

#df now is the dataframe.