Python 从网站的大型tar.gz文件读取数据_Python_Python 2.7_Csv_Urllib2_Tar

Python 从网站的大型tar.gz文件读取数据

python python-2.7 csv

Python 从网站的大型tar.gz文件读取数据,python,python-2.7,csv,urllib2,tar,Python,Python 2.7,Csv,Urllib2,Tar,1）我应该如何读取网站上tar.gz文件中所有csv文件的数据，并以最节省内存和空间的方式将其写入文件夹中的csv？ 2）如何循环它来遍历tar.gz文件中的所有CSV？ 3）既然CSV文件很大，我如何循环它读写，比如说，一次读写一百万行我只使用了其他答案上的代码 import pandas as pd import urllib2 import tarfile url='https://ghtstorage.blob.core.windows.net/downloads/mysql-2

1）我应该如何读取网站上tar.gz文件中所有csv文件的数据，并以最节省内存和空间的方式将其写入文件夹中的csv？ 2）如何循环它来遍历tar.gz文件中的所有CSV？ 3）既然CSV文件很大，我如何循环它读写，比如说，一次读写一百万行

我只使用了其他答案上的代码

import pandas as pd
import urllib2
import tarfile
url='https://ghtstorage.blob.core.windows.net/downloads/mysql-2016-08-01.tar.gz'
r=urllib2.Request(url)
o=urllib2.urlopen(r)

thetarfile=tarfile.open(o, mode='r:gz')
thetarfile.close()

将存档下载到本地存储

显示存档中的文件列表。运行mantar查看命令行选项

从存档中逐个提取文件

使用SAXXML解析器

解析后删除文件

删除归档文件

如果不下载远程文件，则无法使用该文件。不过，如果这是您的意思，您可以避免将其写入磁盘。类似地，如果不解压缩tgz中的文件，则无法处理它们。如果你打算将csv文件写入文件夹，为什么要避免下载和解压缩呢？谢谢，Rawing！现在，我如何避免将其写入磁盘并写入csv文件。根据你的反馈，我更新了我的问题。我当然需要你的帮助。