Python Pyspark中的熊猫Udf在纱线客户端或群集模式下仅在1个执行器中运行_Python_Pandas_Apache Spark_Pyspark

Python Pyspark中的熊猫Udf在纱线客户端或群集模式下仅在1个执行器中运行

python pandas apache-spark pyspark

Python Pyspark中的熊猫Udf在纱线客户端或群集模式下仅在1个执行器中运行,python,pandas,apache-spark,pyspark,Python,Pandas,Apache Spark,Pyspark,我有一个从配置单元表读取数据并应用pandas udf的代码，当它从表中读取数据时，它在11个执行器中运行，但当它执行pandas udf时，它只使用1个执行器。是否有办法指定10名执行人来执行udf spark-submit --master yarn --deploy-mode client --conf spark.dynamicAllocation.enabled=false --conf spark.executor.instances=20 code_test.py Code S

我有一个从配置单元表读取数据并应用pandas udf的代码，当它从表中读取数据时，它在11个执行器中运行，但当它执行pandas udf时，它只使用1个执行器。是否有办法指定10名执行人来执行udf

spark-submit --master yarn --deploy-mode client --conf spark.dynamicAllocation.enabled=false --conf spark.executor.instances=20 code_test.py


Code Snippet:

    from pyspark.sql.functions import pandas_udf, PandasUDFType
    from pyspark.sql import SparkSession
    spark = SparkSession.builder.master("yarn").appName("Test").enableHiveSupport().getOrCreate()
    @pandas_udf("double", PandasUDFType.GROUPED_AGG)
    def mean_udf(v):
        return v.mean()
    df = spark.sql("select id, cast(tran_am as double) as v from table")
    df.groupby("id").agg(mean_udf(df['v'])).show()