Scala Azure Datarics-从Gen2 DataLake存储运行Spark Jar

Scala Azure Datarics-从Gen2 DataLake存储运行Spark Jar,scala,azure,apache-spark,azure-databricks,Scala,Azure,Apache Spark,Azure Databricks,我正在尝试从Azure Databrics运行spark提交。目前,我可以创建一个作业,将jar上传到Databrics工作区,然后运行它 我的问题是: 有没有一种方法可以访问驻留在GEN2 DataLake存储上的jar,并从Databrics workspace甚至Azure ADF进行spark提交?(因为工作区和GEN2存储之间的通信受“fs.azure.account.key”保护) 有没有办法从databrics笔记本上提交spark 有没有办法访问驻留在GEN2 DataLake存

我正在尝试从Azure Databrics运行spark提交。目前,我可以创建一个作业,将jar上传到Databrics工作区,然后运行它

我的问题是:

  • 有没有一种方法可以访问驻留在GEN2 DataLake存储上的jar,并从Databrics workspace甚至Azure ADF进行spark提交?(因为工作区和GEN2存储之间的通信受“fs.azure.account.key”保护)

  • 有没有办法从databrics笔记本上提交spark

  • 有没有办法访问驻留在GEN2 DataLake存储和存储上的jar spark是否从Databrics workspace提交,甚至从Azure ADF提交? (因为工作区和GEN2存储之间的通信是 受保护的“fs.azure.account.key”),很遗憾,您无法访问 驻留在Azure存储上的jar,如ADLS Gen2/Gen1帐户

    注意:jars、-py files、-files参数支持DBFSS3路径

    通常,Jar库存储在dbfs:/FileStore/jars下

    您需要上传dbfs中的库,并在jar活动中作为参数传递

    有关详细信息,请参阅“”

    有没有办法从databricks笔记本上提交spark

    要回答第二个问题,您可以参考以下工作类型:

    参考:和“”

    希望这有帮助



    如果回答了您的问题,请单击“标记为答案”和“向上投票”。如果您有任何进一步的疑问,请告诉我们。

    最后,我想出了如何运行此程序:

  • 您可以从ADF运行Databricks jar,并将其连接到现有集群,该集群将在集群中配置adls密钥

  • 从笔记本上进行spark提交是不可能的。但是您可以在jobs中创建spark作业,也可以使用api来执行spark提交


  • 您可以安排databricks笔记本。看,我已经做到了。(我在第一行中写道。)我正在寻找一种方法来具体完成第1点和第2点。你能对此提出建议或评论吗?谢谢你的回复。在我的帖子中,我提到我已经能够做到这一点。想寻找一种方法来完成一个普通的Spark提交,就像我们在脚本或Jupyter笔记本上做的那样。