Python 如何在每个Spark数据帧分区中使用分组的udf?

Python 如何在每个Spark数据帧分区中使用分组的udf?,python,pandas,dataframe,pyspark,Python,Pandas,Dataframe,Pyspark,我想使用一个UDF来加速用户定义的函数。 pandas udf的类型我感兴趣的是一个获取pandas数据帧作为输入并返回pandas数据帧的udf(PandasudType.GROUPED_映射) 但是这些熊猫似乎 UDF必须插入到groupby().apply()框架中,而在我的情况下,我只需要 将pandas UDF应用于Pyspark数据帧的每个分区,并在每个执行器中将每个分区转换为本地pandas数据帧。事实上,我希望避免任何类型的groupby,因为这会导致一些数据重组 有没有办法做到

我想使用一个UDF来加速用户定义的函数。 pandas udf的类型我感兴趣的是一个获取pandas数据帧作为输入并返回pandas数据帧的udf(PandasudType.GROUPED_映射)

但是这些熊猫似乎 UDF必须插入到
groupby().apply()
框架中,而在我的情况下,我只需要 将pandas UDF应用于Pyspark数据帧的每个分区,并在每个执行器中将每个分区转换为本地pandas数据帧。事实上,我希望避免任何类型的groupby,因为这会导致一些数据重组


有没有办法做到这一点,也许可以明确地说groupby应该通过分区或类似的方式来完成?

你需要groupby中的sort=False吗?@ansev实际上我根本不需要groupby,但这个返回pandas数据帧的pandas udf版本似乎只适用于groupby()。apply()。我只想对spark DataFrame的每个分区应用pandas udf,在udf内部将其作为pandas DataFrame进行局部处理……groupby中是否需要sort=False?@ansev实际上我根本不需要groupby,但这个返回pandas dataframes的pandas udf版本似乎只适用于groupby()。apply()。我想做的就是将pandas udf应用于spark数据帧的每个分区,在udf内将本地视为pandas数据帧。。。