Python 如何处理熊猫中的超大数据集_Python_Pandas_Dataframe

Python 如何处理熊猫中的超大数据集

python pandas dataframe

Python 如何处理熊猫中的超大数据集,python,pandas,dataframe,Python,Pandas,Dataframe,我需要在几个字段名上合并MongoDB中的5个集合，并将其作为CSV文件返回。我可以使用from_records方法将集合读入pandas。没问题&使用pd合并其中的一个子集。merge但问题是我要合并的每个数据帧都有20000多列和100000多行。由于规模的原因，合并过程显然非常缓慢我从来没有处理过这个数量级的数据——有什么方法可以加速这个过程？也许熊猫在这一点上不是合适的工具我想您需要分发您的处理一种方法是将您的输入分割成多个块，使用多处理生成中间输出，然后在最后将它们全部合并我如

我需要在几个字段名上合并MongoDB中的5个集合，并将其作为CSV文件返回。我可以使用

from_records

方法将集合读入pandas。没问题&使用

pd合并其中的一个子集。merge

但问题是我要合并的每个数据帧都有20000多列和100000多行。由于规模的原因，合并过程显然非常缓慢

我从来没有处理过这个数量级的数据——有什么方法可以加速这个过程？也许熊猫在这一点上不是合适的工具

我想您需要分发您的处理

一种方法是将您的输入分割成多个块，使用多处理生成中间输出，然后在最后将它们全部合并

我如何在熊猫身上做到这一点

您是否有内存问题？如果您正在寻找可扩展的解决方案，您可能应该看看dask。其他解决方案可能是改变您正在采取的方法并使用其他格式，如HDF5。是的，有没有一种方法在进行合并时无法将数据读入内存？