Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/324.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python:来自多个统计文件的统计信息摘要_Python_Pandas - Fatal编程技术网

Python:来自多个统计文件的统计信息摘要

Python:来自多个统计文件的统计信息摘要,python,pandas,Python,Pandas,我在数据库中存储了大约140000000条记录的数据集。我需要使用python计算这些数据的基本统计数据,如平均值、最大值、最小值、标准偏差 但是,当我使用诸如“Select*from Mytable order by ID limit%d offset%d”%(chunksize,offset)之类的块执行时,执行需要一个多小时,并且仍在执行。引自 由于这需要更多的时间,现在我决定只读取一些记录,并将使用pandas.descripe()获得的统计数据保存到csv中。同样,对于整个数据,我将有

我在数据库中存储了大约140000000条记录的数据集。我需要使用python计算这些数据的基本统计数据,如平均值、最大值、最小值、标准偏差

但是,当我使用诸如“Select*from Mytable order by ID limit%d offset%d”%(chunksize,offset)之类的块执行时,执行需要一个多小时,并且仍在执行。引自

由于这需要更多的时间,现在我决定只读取一些记录,并将使用pandas.descripe()获得的统计数据保存到csv中。同样,对于整个数据,我将有多个仅包含统计信息的CSV


有没有办法合并这些CSV以获得整个140000000数据的总体统计数据

在这种情况下(要计算分割在不同文件中的巨大数据集的平均值、最大值、最小值、SD),您可以计算您需要的值(平均值、最大值等)。只保留结果,然后打开第二个文件,并在考虑第一个文件的结果后计算(平均值、最大值等)

你试过用泡菜吗?以pickle格式保存和加载,并使用pandas数据框计算汇总统计信息


如果这不起作用,那么可能需要重新访问目标,了解为什么需要捕获如此大的数据集,并按类别、时间段或其他更有意义的内容进行细分。

您不能直接将数据库用于这些任务吗?例如。请参阅:为什么不将CSV打开到pandas中,并使用pandas.concat函数组合数据?请参阅:@fgoettel感谢您为我指明了链接。这非常有用。您的行和列的维度是多少?@Nickil Maveli row=96000000,columns=13