Python 从网站的大型tar.gz文件读取数据
1) 我应该如何读取网站上tar.gz文件中所有csv文件的数据,并以最节省内存和空间的方式将其写入文件夹中的csv? 2) 如何循环它来遍历tar.gz文件中的所有CSV? 3) 既然CSV文件很大,我如何循环它读写,比如说,一次读写一百万行 我只使用了其他答案上的代码Python 从网站的大型tar.gz文件读取数据,python,python-2.7,csv,urllib2,tar,Python,Python 2.7,Csv,Urllib2,Tar,1) 我应该如何读取网站上tar.gz文件中所有csv文件的数据,并以最节省内存和空间的方式将其写入文件夹中的csv? 2) 如何循环它来遍历tar.gz文件中的所有CSV? 3) 既然CSV文件很大,我如何循环它读写,比如说,一次读写一百万行 我只使用了其他答案上的代码 import pandas as pd import urllib2 import tarfile url='https://ghtstorage.blob.core.windows.net/downloads/mysql-2
import pandas as pd
import urllib2
import tarfile
url='https://ghtstorage.blob.core.windows.net/downloads/mysql-2016-08-01.tar.gz'
r=urllib2.Request(url)
o=urllib2.urlopen(r)
thetarfile=tarfile.open(o, mode='r:gz')
thetarfile.close()
如果不下载远程文件,则无法使用该文件。不过,如果这是您的意思,您可以避免将其写入磁盘。类似地,如果不解压缩tgz中的文件,则无法处理它们。如果你打算将csv文件写入文件夹,为什么要避免下载和解压缩呢?谢谢,Rawing!现在,我如何避免将其写入磁盘并写入csv文件。根据你的反馈,我更新了我的问题。我当然需要你的帮助。