Python 熊猫将csv转换为h5文件,避免内存错误

Python 熊猫将csv转换为h5文件,避免内存错误,python,pandas,expand,hdf,Python,Pandas,Expand,Hdf,我有这个简单的代码 data = pd.read_csv(file_path + 'PSI_TS_clean.csv', nrows=None, names=None, usecols=None) data.to_hdf(file_path + 'PSI_TS_clean.h5', 'table') 但是我的数据太大,我遇到了内存问题 什么是一块一块地做这件事的干净方法 如果csv非常大,请使用此处详述的方法拆分文件: 然后遍历文件并对每个文件使用pd

我有这个简单的代码

data = pd.read_csv(file_path + 'PSI_TS_clean.csv', nrows=None, 
                   names=None, usecols=None)

data.to_hdf(file_path + 'PSI_TS_clean.h5', 'table')
但是我的数据太大,我遇到了内存问题


什么是一块一块地做这件事的干净方法

如果csv非常大,请使用此处详述的方法拆分文件:

然后遍历文件并对每个文件使用pd.read\u csv,然后使用pd.to\u hdf方法

ToYHDF检查这里的参数:您需要确保模式“A”并考虑追加。 如果不了解数据帧结构的更多细节,就很难对其进行进一步的评论


对于读取csv,还有参数:low_memory=False

读取或写入哪个位?read_csv接受
chunksize
参数,不确定
to_hdf
是否执行写入操作。我认为应该可以附加或类似的东西。根据文档,有一种
mode='a'
,我认为应该有一种简单的方法来处理熊猫。顺便说一句,我已经用计算机解决了这个问题,很高兴你已经解决了。我的主数据处理计算机是64Gb,因此我通常不会遇到问题。如果将参数complib='blosc'和complevel=9添加到to_hdf调用中,您应该会看到内存使用量显著减少,速度显著加快。不,这些参数与在Pandas中启用hdf功能的库有关。如果您的csv文件是数字文件,在过去,我成功地使用它来实现更好的内存使用。虽然这是反对一个更早期版本的熊猫(0.8.1)。