Python：来自多个统计文件的统计信息摘要_Python_Pandas

Python：来自多个统计文件的统计信息摘要

python pandas

Python：来自多个统计文件的统计信息摘要,python,pandas,Python,Pandas,我在数据库中存储了大约140000000条记录的数据集。我需要使用python计算这些数据的基本统计数据，如平均值、最大值、最小值、标准偏差但是，当我使用诸如“Select*from Mytable order by ID limit%d offset%d”%（chunksize，offset）之类的块执行时，执行需要一个多小时，并且仍在执行。引自由于这需要更多的时间，现在我决定只读取一些记录，并将使用pandas.descripe（）获得的统计数据保存到csv中。同样，对于整个数据，我将有

我在数据库中存储了大约140000000条记录的数据集。我需要使用python计算这些数据的基本统计数据，如平均值、最大值、最小值、标准偏差

但是，当我使用诸如“Select*from Mytable order by ID limit%d offset%d”%（chunksize，offset）之类的块执行时，执行需要一个多小时，并且仍在执行。引自

由于这需要更多的时间，现在我决定只读取一些记录，并将使用pandas.descripe（）获得的统计数据保存到csv中。同样，对于整个数据，我将有多个仅包含统计信息的CSV

有没有办法合并这些CSV以获得整个140000000数据的总体统计数据

在这种情况下（要计算分割在不同文件中的巨大数据集的平均值、最大值、最小值、SD），您可以计算您需要的值（平均值、最大值等）。只保留结果，然后打开第二个文件，并在考虑第一个文件的结果后计算（平均值、最大值等）

你试过用泡菜吗？以pickle格式保存和加载，并使用pandas数据框计算汇总统计信息

如果这不起作用，那么可能需要重新访问目标，了解为什么需要捕获如此大的数据集，并按类别、时间段或其他更有意义的内容进行细分。

您不能直接将数据库用于这些任务吗？例如。请参阅：为什么不将CSV打开到pandas中，并使用pandas.concat函数组合数据？请参阅：@fgoettel感谢您为我指明了链接。这非常有用。您的行和列的维度是多少？@Nickil Maveli row=96000000，columns=13