Python Pyspark中的熊猫Udf在纱线客户端或群集模式下仅在1个执行器中运行

Python Pyspark中的熊猫Udf在纱线客户端或群集模式下仅在1个执行器中运行,python,pandas,apache-spark,pyspark,Python,Pandas,Apache Spark,Pyspark,我有一个从配置单元表读取数据并应用pandas udf的代码,当它从表中读取数据时,它在11个执行器中运行,但当它执行pandas udf时,它只使用1个执行器。是否有办法指定10名执行人来执行udf spark-submit --master yarn --deploy-mode client --conf spark.dynamicAllocation.enabled=false --conf spark.executor.instances=20 code_test.py Code S

我有一个从配置单元表读取数据并应用pandas udf的代码,当它从表中读取数据时,它在11个执行器中运行,但当它执行pandas udf时,它只使用1个执行器。是否有办法指定10名执行人来执行udf

spark-submit --master yarn --deploy-mode client --conf spark.dynamicAllocation.enabled=false --conf spark.executor.instances=20 code_test.py


Code Snippet:

    from pyspark.sql.functions import pandas_udf, PandasUDFType
    from pyspark.sql import SparkSession
    spark = SparkSession.builder.master("yarn").appName("Test").enableHiveSupport().getOrCreate()
    @pandas_udf("double", PandasUDFType.GROUPED_AGG)
    def mean_udf(v):
        return v.mean()
    df = spark.sql("select id, cast(tran_am as double) as v from table")
    df.groupby("id").agg(mean_udf(df['v'])).show()