Python 如何处理熊猫中的超大数据集

Python 如何处理熊猫中的超大数据集,python,pandas,dataframe,Python,Pandas,Dataframe,我需要在几个字段名上合并MongoDB中的5个集合,并将其作为CSV文件返回。我可以使用from_records方法将集合读入pandas。没问题&使用pd合并其中的一个子集。merge但问题是我要合并的每个数据帧都有20000多列和100000多行。由于规模的原因,合并过程显然非常缓慢 我从来没有处理过这个数量级的数据——有什么方法可以加速这个过程?也许熊猫在这一点上不是合适的工具 我想您需要分发您的处理 一种方法是将您的输入分割成多个块,使用多处理生成中间输出,然后在最后将它们全部合并 我如

我需要在几个字段名上合并MongoDB中的5个集合,并将其作为CSV文件返回。我可以使用
from_records
方法将集合读入pandas。没问题&使用
pd合并其中的一个子集。merge
但问题是我要合并的每个数据帧都有20000多列和100000多行。由于规模的原因,合并过程显然非常缓慢


我从来没有处理过这个数量级的数据——有什么方法可以加速这个过程?也许熊猫在这一点上不是合适的工具

我想您需要分发您的处理

一种方法是将您的输入分割成多个块,使用多处理生成中间输出,然后在最后将它们全部合并

我如何在熊猫身上做到这一点


您是否有内存问题?如果您正在寻找可扩展的解决方案,您可能应该看看dask。其他解决方案可能是改变您正在采取的方法并使用其他格式,如HDF5。是的,有没有一种方法在进行合并时无法将数据读入内存?