Python 如何在每个Spark数据帧分区中使用分组的udf？_Python_Pandas_Dataframe_Pyspark

Python 如何在每个Spark数据帧分区中使用分组的udf？

python pandas dataframe pyspark

Python 如何在每个Spark数据帧分区中使用分组的udf？,python,pandas,dataframe,pyspark,Python,Pandas,Dataframe,Pyspark,我想使用一个UDF来加速用户定义的函数。 pandas udf的类型我感兴趣的是一个获取pandas数据帧作为输入并返回pandas数据帧的udf（PandasudType.GROUPED_映射）但是这些熊猫似乎 UDF必须插入到groupby（）.apply（）框架中，而在我的情况下，我只需要将pandas UDF应用于Pyspark数据帧的每个分区，并在每个执行器中将每个分区转换为本地pandas数据帧。事实上，我希望避免任何类型的groupby，因为这会导致一些数据重组有没有办法做到

我想使用一个UDF来加速用户定义的函数。 pandas udf的类型我感兴趣的是一个获取pandas数据帧作为输入并返回pandas数据帧的udf（PandasudType.GROUPED_映射）

但是这些熊猫似乎 UDF必须插入到

groupby（）.apply（）

框架中，而在我的情况下，我只需要将pandas UDF应用于Pyspark数据帧的每个分区，并在每个执行器中将每个分区转换为本地pandas数据帧。事实上，我希望避免任何类型的groupby，因为这会导致一些数据重组

有没有办法做到这一点，也许可以明确地说groupby应该通过分区或类似的方式来完成？

你需要groupby中的sort=False吗？@ansev实际上我根本不需要groupby，但这个返回pandas数据帧的pandas udf版本似乎只适用于groupby（）。apply（）。我只想对spark DataFrame的每个分区应用pandas udf，在udf内部将其作为pandas DataFrame进行局部处理……groupby中是否需要sort=False？@ansev实际上我根本不需要groupby，但这个返回pandas dataframes的pandas udf版本似乎只适用于groupby（）。apply（）。我想做的就是将pandas udf应用于spark数据帧的每个分区，在udf内将本地视为pandas数据帧。。。