Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/345.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 大数据的Impala中值计算_Python_Pandas_Impala_Median_Impyla - Fatal编程技术网

Python 大数据的Impala中值计算

Python 大数据的Impala中值计算,python,pandas,impala,median,impyla,Python,Pandas,Impala,Median,Impyla,我可以访问任意月份数亿行的数据。3个特性:表示日期的字符串、表示类型的字符串和表示金额的值 有了python和impala(SQL)的访问权限,计算每月每种类型数百万行的中位数的最佳方法是什么 如果我使用一个简单的groupby:date部分的type和substring来获取month eg substring(date,1,4),并使用APPX_MEDIAN函数作为中位数,那么Impala查询的内存就用完了 如果我尝试将原始数据作为CSV(比如使用DBeaver),它的大小非常大,太大,无法

我可以访问任意月份数亿行的数据。3个特性:表示日期的字符串、表示类型的字符串和表示金额的值

有了python和impala(SQL)的访问权限,计算每月每种类型数百万行的中位数的最佳方法是什么

如果我使用一个简单的groupby:date部分的type和substring来获取month eg substring(date,1,4),并使用APPX_MEDIAN函数作为中位数,那么Impala查询的内存就用完了

如果我尝试将原始数据作为CSV(比如使用DBeaver),它的大小非常大,太大,无法放入我可以访问的VM的内存中,如果我尝试将CSV推入python数据帧,它将保存CSV


我不熟悉处理大数据的模式,因此任何提示都将不胜感激。由于数据量太大,我很难进行简单的计算

您可以通过指定
SET MEM_LIMIT=Xg
,尝试增加Impala用于执行查询的内存量,其中X将是每个Impala守护程序的GB内存。有关更多详细信息,请参阅