Python 直接将gz文件加载到数据帧中
我从dati.istat.it中得到了这个:其中有一个csv文件(具有不同的名称),我希望直接加载到pandas dataframe中 如果我用7zip解压,我很容易用这个代码加载Python 直接将gz文件加载到数据帧中,python,pandas,gzip,Python,Pandas,Gzip,我从dati.istat.it中得到了这个:其中有一个csv文件(具有不同的名称),我希望直接加载到pandas dataframe中 如果我用7zip解压,我很容易用这个代码加载 pd.read_csv(“DCCV_职业数据+脚注性别175b2401-3654-4673-9e60-b300989088bb.csv”,sep=“|”,engine=“python”) 我怎么能不先用7zip解压呢 太多了 您可以使用库: Pandas仅在以下位置支持gzip和bz2: 压缩:{'gzip','bz
pd.read_csv(“DCCV_职业数据+脚注性别175b2401-3654-4673-9e60-b300989088bb.csv”,sep=“|”,engine=“python”)
我怎么能不先用7zip解压呢
太多了 您可以使用库:
Pandas仅在以下位置支持gzip
和bz2
:
压缩:{'gzip','bz2','infer',None},默认为'infer'
用于实时解压缩磁盘上的数据。如果“推断”,则如果filepath_或_buffer是分别以“.gz”或“.bz2”结尾的字符串,则使用gzip或bz2,否则不进行解压缩。设置为“无”表示无解压缩
您可以尝试将参数
compression='gzip'
添加到read_csv
或compression='infer'
中,或者将参数compression='infer'
添加到@jezrael中,您可以使用子流程
模块从Python脚本中进行解压缩。
import pandas as pd
import zipfile
z = zipfile.ZipFile('test/file.gz')
print pd.read_csv(z.open("DCCV_OCCUPATIT_Data+FootnotesLegend_175b2401-3654-4673-9e60-b300989088bb.csv"),
sep="|",
engine = "python")