Jupyter notebook 使用Databricks连接_Jupyter Notebook_Databricks_Azure Databricks

Jupyter notebook 使用Databricks连接

jupyter-notebook

Jupyter notebook 使用Databricks连接,jupyter-notebook,databricks,azure-databricks,Jupyter Notebook,Databricks,Azure Databricks,我想使用我最喜欢的编辑器在本地编辑Databricks笔记本，然后使用在我通常通过web界面访问的Databricks群集上远程运行笔记本不幸的是，在网上搜索了几天后，我找不到关于Databricks Connect的详细文档我运行了databricks connect configure，正如上面PyPI页面所建议的那样，但我不确定某些设置是什么。有人能告诉我这个（比如在web界面中的什么地方可以找到这些值）或者提供一个到适当文档的链接吗我知道一些设置应该是什么，但为了完整性和其他设置的

我想使用我最喜欢的编辑器在本地编辑Databricks笔记本，然后使用在我通常通过web界面访问的Databricks群集上远程运行笔记本

不幸的是，在网上搜索了几天后，我找不到关于Databricks Connect的详细文档

我运行了

databricks connect configure

，正如上面PyPI页面所建议的那样，但我不确定某些设置是什么。有人能告诉我这个（比如在web界面中的什么地方可以找到这些值）或者提供一个到适当文档的链接吗

我知道一些设置应该是什么，但为了完整性和其他设置的好处，我将包括运行

databricks connect configure

时出现的所有设置

Databricks主机

Databricks令牌

集群ID

（例如，

0921-001415-628

）

组织ID

（仅限Azure，请参见URL中的

？o=orgId

）

端口

（是否为

spark.databricks.service.Port

？）

而且，我认为这是我最感兴趣的，我需要对笔记本本身做任何更改吗，比如定义SparkContext或其他什么？如果是，采用什么配置

我该如何运行它？运行

databricks connect configure

后，似乎没有任何“神奇”发生。当我运行jupyter notebook时，它仍然在本地运行，并且似乎不知道如何将其转发到远程集群

更新：

如果您想考虑更具体的内容，在Databricks的web界面中，

dbutils

是一个预定义的对象。远程运行笔记本电脑时如何引用它？

我已将另一个人的回复标记为答案，但由于某种原因，该回复现在已不存在

就我而言，官方用户指南起到了以下作用：

简而言之，您需要包括：

spark=SparkSession.builder.getOrCreate（）

在脚本开始时。笔记本电脑应该转换，但当然，神奇的命令（%run等）将不起作用

此处提供了无法使用的零件的更多详细信息

理想情况下，您希望一次只回答一个问题。这看起来像是你在要求一个走查或教程，所以这不是一个很好的来源。不太可能你会在这里获得很多动力。我想。。。但是如果某个地方有一个好的文档，我会很高兴只需要一个链接。如果我必须选择一个问题，那就是“我需要更改笔记本中的任何内容才能运行它吗？”我想我可以从这样的起点开始工作。不幸的是，这并不是真正的工作方式。基本上，这个项目看起来像是围绕Azure API的一个薄包装，所以你开始猜测配置会直接引用它。它目前处于私有预览中，因此没有可用的文档。你可以尝试通过你的Microsoft帐户管理器进入预览。我只是因为发布了一个奇怪的链接而被删除。你的帖子填补了我在网络上找不到的所有缺失部分，包括用户指南谢谢你的链接。看来我必须是管理员才能完成这个设置？我真的很讨厌笔记本编辑器…对，你需要一个管理员来设置集群属性。您应该能够自己完成其余的操作。更新上述注释：从Databricks Runtime 5.5开始，集群将自动配置为能够接受Databricks connect连接。