Python 熊猫将csv转换为h5文件，避免内存错误_Python_Pandas_Expand_Hdf

Python 熊猫将csv转换为h5文件，避免内存错误

python pandas

Python 熊猫将csv转换为h5文件，避免内存错误,python,pandas,expand,hdf,Python,Pandas,Expand,Hdf,我有这个简单的代码 data = pd.read_csv(file_path + 'PSI_TS_clean.csv', nrows=None, names=None, usecols=None) data.to_hdf(file_path + 'PSI_TS_clean.h5', 'table') 但是我的数据太大，我遇到了内存问题什么是一块一块地做这件事的干净方法如果csv非常大，请使用此处详述的方法拆分文件：然后遍历文件并对每个文件使用pd

我有这个简单的代码

data = pd.read_csv(file_path + 'PSI_TS_clean.csv', nrows=None, 
                   names=None, usecols=None)

data.to_hdf(file_path + 'PSI_TS_clean.h5', 'table')

但是我的数据太大，我遇到了内存问题

什么是一块一块地做这件事的干净方法

如果csv非常大，请使用此处详述的方法拆分文件：

然后遍历文件并对每个文件使用pd.read\u csv，然后使用pd.to\u hdf方法

ToYHDF检查这里的参数：您需要确保模式“A”并考虑追加。如果不了解数据帧结构的更多细节，就很难对其进行进一步的评论

对于读取csv，还有参数：low_memory=False

读取或写入哪个位？read_csv接受

chunksize

参数，不确定

to_hdf

是否执行写入操作。我认为应该可以附加或类似的东西。根据文档，有一种

mode='a'

，我认为应该有一种简单的方法来处理熊猫。顺便说一句，我已经用计算机解决了这个问题，很高兴你已经解决了。我的主数据处理计算机是64Gb，因此我通常不会遇到问题。如果将参数complib='blosc'和complevel=9添加到to_hdf调用中，您应该会看到内存使用量显著减少，速度显著加快。不，这些参数与在Pandas中启用hdf功能的库有关。如果您的csv文件是数字文件，在过去，我成功地使用它来实现更好的内存使用。虽然这是反对一个更早期版本的熊猫（0.8.1）。