Python 从网站的大型tar.gz文件读取数据

Python 从网站的大型tar.gz文件读取数据,python,python-2.7,csv,urllib2,tar,Python,Python 2.7,Csv,Urllib2,Tar,1) 我应该如何读取网站上tar.gz文件中所有csv文件的数据,并以最节省内存和空间的方式将其写入文件夹中的csv? 2) 如何循环它来遍历tar.gz文件中的所有CSV? 3) 既然CSV文件很大,我如何循环它读写,比如说,一次读写一百万行 我只使用了其他答案上的代码 import pandas as pd import urllib2 import tarfile url='https://ghtstorage.blob.core.windows.net/downloads/mysql-2

1) 我应该如何读取网站上tar.gz文件中所有csv文件的数据,并以最节省内存和空间的方式将其写入文件夹中的csv? 2) 如何循环它来遍历tar.gz文件中的所有CSV? 3) 既然CSV文件很大,我如何循环它读写,比如说,一次读写一百万行

我只使用了其他答案上的代码

import pandas as pd
import urllib2
import tarfile
url='https://ghtstorage.blob.core.windows.net/downloads/mysql-2016-08-01.tar.gz'
r=urllib2.Request(url)
o=urllib2.urlopen(r)

thetarfile=tarfile.open(o, mode='r:gz')
thetarfile.close()
  • 将存档下载到本地存储
  • 显示存档中的文件列表。运行mantar查看命令行选项
  • 从存档中逐个提取文件
  • 使用SAXXML解析器
  • 解析后删除文件
  • 删除归档文件

  • 如果不下载远程文件,则无法使用该文件。不过,如果这是您的意思,您可以避免将其写入磁盘。类似地,如果不解压缩tgz中的文件,则无法处理它们。如果你打算将csv文件写入文件夹,为什么要避免下载和解压缩呢?谢谢,Rawing!现在,我如何避免将其写入磁盘并写入csv文件。根据你的反馈,我更新了我的问题。我当然需要你的帮助。