Python 如何高效地将大数据加载到熊猫中?

Python 如何高效地将大数据加载到熊猫中?,python,pandas,dataframe,Python,Pandas,Dataframe,我使用的数据集非常广泛(1005行*590718列,1.2G)。将如此大的数据集加载到数据帧会导致完全由于内存不足而导致代码失败 我知道Spark可能是处理大型数据集的Pandas的一个很好的替代品,但是Pandas中有没有合适的解决方案来减少加载大型数据时的内存使用?您可以使用 pandas.read_csv(filename, chunksize = chunksize) 看到了吗?如果可能,将csv转换为拼花格式,并在spark中使用pyarrow或fast拼花包以加快处理速度。谢谢。这

我使用的数据集非常广泛(1005行*590718列,1.2G)。将如此大的数据集加载到数据帧会导致完全由于内存不足而导致代码失败

我知道Spark可能是处理大型数据集的Pandas的一个很好的替代品,但是Pandas中有没有合适的解决方案来减少加载大型数据时的内存使用?

您可以使用

pandas.read_csv(filename, chunksize = chunksize)

看到了吗?如果可能,将csv转换为拼花格式,并在spark中使用pyarrow或fast拼花包以加快处理速度。谢谢。这很有帮助!我以后需要追加块吗?我的数据集太宽了。列有类似的功能吗?或者我应该转置我的df吗?您可以使用concat函数跟进它,例如:
chunk\u df=pd.read\u csv(filename,iterator=True,chunksize=chunksize)
df=pd.concat(chunk\u df,ignore\u index=True)