Jupyter notebook 使用Databricks连接

Jupyter notebook 使用Databricks连接,jupyter-notebook,databricks,azure-databricks,Jupyter Notebook,Databricks,Azure Databricks,我想使用我最喜欢的编辑器在本地编辑Databricks笔记本,然后使用在我通常通过web界面访问的Databricks群集上远程运行笔记本 不幸的是,在网上搜索了几天后,我找不到关于Databricks Connect的详细文档 我运行了databricks connect configure,正如上面PyPI页面所建议的那样,但我不确定某些设置是什么。有人能告诉我这个(比如在web界面中的什么地方可以找到这些值)或者提供一个到适当文档的链接吗 我知道一些设置应该是什么,但为了完整性和其他设置的

我想使用我最喜欢的编辑器在本地编辑Databricks笔记本,然后使用在我通常通过web界面访问的Databricks群集上远程运行笔记本

不幸的是,在网上搜索了几天后,我找不到关于Databricks Connect的详细文档

我运行了
databricks connect configure
,正如上面PyPI页面所建议的那样,但我不确定某些设置是什么。有人能告诉我这个(比如在web界面中的什么地方可以找到这些值)或者提供一个到适当文档的链接吗

我知道一些设置应该是什么,但为了完整性和其他设置的好处,我将包括运行
databricks connect configure
时出现的所有设置

Databricks主机

Databricks令牌

集群ID
(例如,
0921-001415-628

组织ID
(仅限Azure,请参见URL中的
?o=orgId

端口
(是否为
spark.databricks.service.Port
?)

而且,我认为这是我最感兴趣的,我需要对笔记本本身做任何更改吗,比如定义SparkContext或其他什么?如果是,采用什么配置

我该如何运行它?运行
databricks connect configure
后,似乎没有任何“神奇”发生。当我运行jupyter notebook时,它仍然在本地运行,并且似乎不知道如何将其转发到远程集群

更新:
如果您想考虑更具体的内容,在Databricks的web界面中,
dbutils
是一个预定义的对象。远程运行笔记本电脑时如何引用它?

我已将另一个人的回复标记为答案,但由于某种原因,该回复现在已不存在

就我而言,官方用户指南起到了以下作用:

简而言之,您需要包括:

spark=SparkSession.builder.getOrCreate()

在脚本开始时。笔记本电脑应该转换,但当然,神奇的命令(%run等)将不起作用


此处提供了无法使用的零件的更多详细信息

理想情况下,您希望一次只回答一个问题。这看起来像是你在要求一个走查或教程,所以这不是一个很好的来源。不太可能你会在这里获得很多动力。我想。。。但是如果某个地方有一个好的文档,我会很高兴只需要一个链接。如果我必须选择一个问题,那就是“我需要更改笔记本中的任何内容才能运行它吗?”我想我可以从这样的起点开始工作。不幸的是,这并不是真正的工作方式。基本上,这个项目看起来像是围绕Azure API的一个薄包装,所以你开始猜测配置会直接引用它。它目前处于私有预览中,因此没有可用的文档。你可以尝试通过你的Microsoft帐户管理器进入预览。我只是因为发布了一个奇怪的链接而被删除。你的帖子填补了我在网络上找不到的所有缺失部分,包括用户指南谢谢你的链接。看来我必须是管理员才能完成这个设置?我真的很讨厌笔记本编辑器…对,你需要一个管理员来设置集群属性。您应该能够自己完成其余的操作。更新上述注释:从Databricks Runtime 5.5开始,集群将自动配置为能够接受Databricks connect连接。