Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/batch-file/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/ssis/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Pyspark Databricks Connect 6.6不';t向Spark上下文添加自定义模块_Pyspark_Modulenotfounderror_Databricks Connect - Fatal编程技术网

Pyspark Databricks Connect 6.6不';t向Spark上下文添加自定义模块

Pyspark Databricks Connect 6.6不';t向Spark上下文添加自定义模块,pyspark,modulenotfounderror,databricks-connect,Pyspark,Modulenotfounderror,Databricks Connect,我在Databricks Connect 6.6中遇到了一种奇怪的行为,我想知道是否有人以前见过这种情况,并且知道是什么导致了这个问题 我已经通过Databricks Connect创建了一个本地Spark上下文,可以成功连接到我的集群并执行任何脚本。但是,只要我尝试通过sc.addPyFile()将自定义模块添加到Spark上下文并使用其中的自定义类/函数,执行就会失败,出现ModuleNotFoundError 我知道如何将Python文件(或包含包的ZIP文件)添加到Spark上下文中,几

我在Databricks Connect 6.6中遇到了一种奇怪的行为,我想知道是否有人以前见过这种情况,并且知道是什么导致了这个问题

我已经通过Databricks Connect创建了一个本地Spark上下文,可以成功连接到我的集群并执行任何脚本。但是,只要我尝试通过
sc.addPyFile()
将自定义模块添加到Spark上下文并使用其中的自定义类/函数,执行就会失败,出现
ModuleNotFoundError

我知道如何将Python文件(或包含包的ZIP文件)添加到Spark上下文中,几个月前我使用了早期版本的Databricks Connect(我认为6.2已经贬值,所以我不得不更新)。此外,如果我将包打包为一个控制盘,并将其安装在集群上,则一切正常。实际上,即使我在通过Azure ML在Databricks计算目标上运行脚本时将包添加到Spark上下文中,它也可以正常工作。如果我使用Databricks Connect,它似乎就坏了

调试时,我检查了
sys.path
,其中列出了包/模块,因此,即使包被添加到Spark上下文中,它似乎也不会发送到工作节点

虽然我在使用
joblibspark
时第一次遇到这个问题,但调用

sc.parallelize([1,2,3,4]).mapPartitions(测试函数).collect()

我已经测试了针对类似问题提出的所有建议,并更改了所有常规参数(Databricks cluster、runtime、local environment等),但错误仍然存在,可以通过运行
sc.parallelize()
轻松重现。。。通过Databricks Connect(并通过模块提供测试功能),该模块通过
sc.addPyFile()
添加到Spark上下文中


有人知道如何解决这个问题吗?

几天前,Databrick Connect 7.1.0发布,似乎解决了这个问题。我不知道是什么导致或解决了这个问题,但如果有人遇到这个问题,请尝试更新到运行时版本>=7.1.0的Databricks群集,并使用相应的Databricks Connect版本n、 Databricks runtime 6.4的一条评论是具有长期支持(LTS)而更高版本仍然需要时间来达到稳定性,因此,您可能会看到更高版本的异常情况。您能否检查6.4是否满足您的需要,以便您可以在生产中使用它而不会出现任何问题?一旦有了更高版本的LTS,您就可以迁移它。感谢您提供的信息,我不知道,最后显示的LTSd如果我创建一个新集群,它是5.5,因此我没有考虑6.4,但我会检查它!:-)几天前,Databrick Connect 7.1.0发布,它似乎解决了这个问题。我不知道是什么导致或解决了这个问题,但如果有人遇到这个问题,请尝试更新到运行时版本>=7.1.0的Databricks群集,并使用相应的Databricks Connect版本。一个注释是Databricks Runtime 6.4具有长期支持(LTS),更高版本仍然需要时间才能达到稳定性,因此,您可能会看到更高版本的异常情况。您是否可以检查6.4是否满足您的需要,以便您可以在生产中使用它而不会出现任何问题?一旦有了更高版本的LTS,您就可以迁移它了。感谢您提供的信息,我不知道,如果我创建一个新集群,最后显示的LTS是5.5,因此我没有看6.4,但我会检查它的!:-)