Pyspark Databricks Connect 6.6不'；t向Spark上下文添加自定义模块_Pyspark_Modulenotfounderror_Databricks Connect

Pyspark Databricks Connect 6.6不'；t向Spark上下文添加自定义模块

pyspark

Pyspark Databricks Connect 6.6不'；t向Spark上下文添加自定义模块,pyspark,modulenotfounderror,databricks-connect,Pyspark,Modulenotfounderror,Databricks Connect,我在Databricks Connect 6.6中遇到了一种奇怪的行为，我想知道是否有人以前见过这种情况，并且知道是什么导致了这个问题我已经通过Databricks Connect创建了一个本地Spark上下文，可以成功连接到我的集群并执行任何脚本。但是，只要我尝试通过sc.addPyFile（）将自定义模块添加到Spark上下文并使用其中的自定义类/函数，执行就会失败，出现ModuleNotFoundError 我知道如何将Python文件（或包含包的ZIP文件）添加到Spark上下文中，几

我在Databricks Connect 6.6中遇到了一种奇怪的行为，我想知道是否有人以前见过这种情况，并且知道是什么导致了这个问题

我已经通过Databricks Connect创建了一个本地Spark上下文，可以成功连接到我的集群并执行任何脚本。但是，只要我尝试通过

sc.addPyFile（）

将自定义模块添加到Spark上下文并使用其中的自定义类/函数，执行就会失败，出现

ModuleNotFoundError

我知道如何将Python文件（或包含包的ZIP文件）添加到Spark上下文中，几个月前我使用了早期版本的Databricks Connect（我认为6.2已经贬值，所以我不得不更新）。此外，如果我将包打包为一个控制盘，并将其安装在集群上，则一切正常。实际上，即使我在通过Azure ML在Databricks计算目标上运行脚本时将包添加到Spark上下文中，它也可以正常工作。如果我使用Databricks Connect，它似乎就坏了

调试时，我检查了

sys.path

，其中列出了包/模块，因此，即使包被添加到Spark上下文中，它似乎也不会发送到工作节点

虽然我在使用

joblibspark

时第一次遇到这个问题，但调用

sc.parallelize（[1,2,3,4]）.mapPartitions（测试函数）.collect（）

我已经测试了针对类似问题提出的所有建议，并更改了所有常规参数（Databricks cluster、runtime、local environment等），但错误仍然存在，可以通过运行

sc.parallelize（）

轻松重现。。。通过Databricks Connect（并通过模块提供测试功能），该模块通过

sc.addPyFile（）

添加到Spark上下文中

有人知道如何解决这个问题吗？

几天前，Databrick Connect 7.1.0发布，似乎解决了这个问题。我不知道是什么导致或解决了这个问题，但如果有人遇到这个问题，请尝试更新到运行时版本>=7.1.0的Databricks群集，并使用相应的Databricks Connect版本n、 Databricks runtime 6.4的一条评论是具有长期支持（LTS）而更高版本仍然需要时间来达到稳定性，因此，您可能会看到更高版本的异常情况。您能否检查6.4是否满足您的需要，以便您可以在生产中使用它而不会出现任何问题？一旦有了更高版本的LTS，您就可以迁移它。感谢您提供的信息，我不知道，最后显示的LTSd如果我创建一个新集群，它是5.5，因此我没有考虑6.4，但我会检查它！：-）几天前，Databrick Connect 7.1.0发布，它似乎解决了这个问题。我不知道是什么导致或解决了这个问题，但如果有人遇到这个问题，请尝试更新到运行时版本>=7.1.0的Databricks群集，并使用相应的Databricks Connect版本。一个注释是Databricks Runtime 6.4具有长期支持（LTS），更高版本仍然需要时间才能达到稳定性，因此，您可能会看到更高版本的异常情况。您是否可以检查6.4是否满足您的需要，以便您可以在生产中使用它而不会出现任何问题？一旦有了更高版本的LTS，您就可以迁移它了。感谢您提供的信息，我不知道，如果我创建一个新集群，最后显示的LTS是5.5，因此我没有看6.4，但我会检查它的！：-）