Apache spark Spark\u UDF的序列化错误_Apache Spark_Serialization_Pyspark_User Defined Functions

Apache spark Spark\u UDF的序列化错误

apache-spark serialization pyspark

Apache spark Spark\u UDF的序列化错误,apache-spark,serialization,pyspark,user-defined-functions,Apache Spark,Serialization,Pyspark,User Defined Functions,我有一个python函数，我把它转换成了Pandas_UDF函数，直到上周它还运行得很好，但在过去几天里出现了以下错误。我们用UDF尝试了一个简单的python函数，它没有抛出这个错误。我不确定我的代码中到底是什么导致了这种情况。spark环境是否有任何变化。如果有帮助的话，我正在使用Azure Databricks 搜索只找到了，但它是旧的感谢任何关于如何解决此问题的建议谢谢，玉帝 SparkException:作业因阶段失败而中止：阶段23.0中的任务0失败4次，最近的失败：阶段23.

我有一个python函数，我把它转换成了Pandas_UDF函数，直到上周它还运行得很好，但在过去几天里出现了以下错误。我们用UDF尝试了一个简单的python函数，它没有抛出这个错误。我不确定我的代码中到底是什么导致了这种情况。spark环境是否有任何变化。如果有帮助的话，我正在使用Azure Databricks

搜索只找到了，但它是旧的

感谢任何关于如何解决此问题的建议

谢谢，玉帝

SparkException:作业因阶段失败而中止：阶段23.0中的任务0失败4次，最近的失败：阶段23.0中的任务0.3丢失（TID 252，172.17.69.7，执行器0）：org.apache.spark.api.python.python异常：回溯（最近一次调用）：文件“/databricks/spark/python/pyspark/serializers.py”，第180行，长度为返回自加载（obj）文件“/databricks/spark/python/pyspark/serializers.py”，第669行，加载返回pickle.load（对象，编码=编码）文件“/databricks/spark/python/pyspark/cloudpickle.py”，第875行，在子导入中导入（名称） ImportError:没有名为“\u pandasujson”的模块

在处理上述异常期间，发生了另一个异常：

回溯（最近一次呼叫最后一次）：文件“/databricks/spark/python/pyspark/worker.py”，第394行，在main中 func、探查器、反序列化器、序列化器=读取自定义项（pickleSer、infle、eval类型） read_udfs中的文件“/databricks/spark/python/pyspark/worker.py”，第234行参数偏移量，udf=read\u single\u udf（pickleSer、infle、eval\u类型、runner\u conf）文件“/databricks/spark/python/pyspark/worker.py”，第160行，在read\u single\u udf中 f、 return\u type=read\u命令（pickleSer，infle） read_命令第69行的文件“/databricks/spark/python/pyspark/worker.py” 命令=序列化程序。\读取长度为的\u（文件）文件“/databricks/spark/python/pyspark/serializers.py”，第183行，长度为引发序列化错误（“由“+回溯.format_exc（）引起”） pyspark.serializers.SerializationError:由回溯（最近的上次调用）引起：文件“/databricks/spark/python/pyspark/serializers.py”，第180行，长度为返回自加载（obj）文件“/databricks/spark/python/pyspark/serializers.py”，第669行，加载返回pickle.load（对象，编码=编码）文件“/databricks/spark/python/pyspark/cloudpickle.py”，第875行，在子导入中导入（名称） ImportError:没有名为“\u pandasujson”的模块