Apache spark 为什么;“数据桥连接测试”;配置Databricks连接后不工作?

Apache spark 为什么;“数据桥连接测试”;配置Databricks连接后不工作?,apache-spark,intellij-idea,databricks,azure-databricks,Apache Spark,Intellij Idea,Databricks,Azure Databricks,我想使用IntelliJ IDEA直接在集群中运行Spark进程,因此我将遵循下一个文档 配置完所有配置后,我运行了databricks connect test,但没有像文档中所说的那样获得Scala REPL 这就是我的集群配置 根据您发布的链接,您的Python版本应为3.5。 您是否在可能有第7层防火墙的代理或网络后面? 你所做的一切看起来都是正确的。所以我会尝试另一个网络 您是否设置了: spark.databricks.service.server.enabled true spa

我想使用IntelliJ IDEA直接在集群中运行Spark进程,因此我将遵循下一个文档

配置完所有配置后,我运行了
databricks connect test
,但没有像文档中所说的那样获得Scala REPL

这就是我的集群配置


根据您发布的链接,您的Python版本应为3.5。 您是否在可能有第7层防火墙的代理或网络后面? 你所做的一切看起来都是正确的。所以我会尝试另一个网络

您是否设置了:

spark.databricks.service.server.enabled true
spark.databricks.service.port 8787

重要提示:我会轮换你的API密钥-你已经在帖子中发布了你的组织id和密钥,这意味着现在任何人都可以访问它。

尝试运行databricks示例,如:

from pyspark.sql import SparkSession
spark = SparkSession\
.builder\
.getOrCreate()

print("Testing simple count")
# The Spark code will execute on the Databricks cluster.
print(spark.range(100).count())
这对我有用


也许他们会修复databricks连接测试,我解决了这个问题。问题在于所有工具的版本:

  • 安装Java
下载并安装JavaSE运行时版本8

下载并安装JavaSE开发工具包8

  • 安装康达
您可以下载并安装完整的Anaconda或使用miniconda

  • 下载WinUtils
这个害虫是Hadoop的一部分,Spark需要它在Windows上工作。快速安装、打开Powershell(以管理员身份)并运行(如果您在具有funky security的公司网络上,则可能需要手动下载exe):

  • 创建虚拟环境
我们现在是一个新的虚拟环境。我建议您为正在处理的每个项目创建一个环境。这使我们能够为每个项目安装不同版本的Databricks Connect,并分别进行升级

从“开始”菜单中找到Anaconda提示符。当它打开时,会有一个默认提示,类似于:

(基本)C:\Users\User 基本部分表示您不在虚拟环境中,而在基本安装中。要创建新环境,请执行以下操作:

conda create --name dbconnect python=3.5
其中dbconnect是环境的名称,可以是您想要的名称。Databricks当前运行Python 3.5-您的Python版本必须匹配。这也是每个项目都有一个环境的另一个很好的理由,因为这在将来可能会改变

  • 现在激活环境:

    康达激活数据库连接

  • 安装数据支架连接

您现在可以开始了:

pip install -U databricks-connect==5.3.*

databricks-connect configure

  • 创建Databricks集群(在本例中,我使用了AmazonWeb服务)

  • 关闭Windows Defender防火墙或允许访问

    • 您的问题似乎是以下问题之一: a) 您指定了错误的端口(在Azure上必须是8787) b) 您没有打开Databricks集群中的端口 c) 您没有正确安装winUtils(例如,您忘记放置环境变量

      如果你能理解德语,这个youtube视频可能会帮助你。 (显示windows 10的完整安装过程)


      是的,我设置了该配置,并且在截图之前删除了我凭证中的许多字符(也在URL中,这个集群将消除它。我正在安装Python 3.5,我将进行测试,然后返回新闻。谢谢。我正在我的网络中本地运行。我使用Python 3.5进行了测试,得到了相同的结果。我禁用了防火墙。我仍然有相同的问题。有趣的是,我的团队成员今天也有这个问题。但即使虽然挂起了,但他们可以使用db connect。他们使用的是VSCode和Python,但这不重要。我尝试使用另一个网络,结果也一样。顺便说一句,我使用的是Azure,我不知道是否需要做更多的事情。他使用的是哪个版本的databricks?Azure上的5.1或5.2?5.3。当你从IntelliJ尝试时会发生什么?上面的方法很有效但对于我来说,我们如何通过IntelliJ或其他IDE进行连接?不推荐使用,请改用
      pip install -U databricks-connect==5.3.*
      
      databricks-connect configure
      
      spark.databricks.service.server.enabled true
      spark.databricks.service.port 15001 (Amazon 15001, Azure 8787)