pyspark从运行在azure云上的Databrick写入外部配置单元群集

pyspark从运行在azure云上的Databrick写入外部配置单元群集,pyspark,hive,azure-databricks,pyhive,Pyspark,Hive,Azure Databricks,Pyhive,我有pyspark笔记本在数据库里运行。 我使用pyhive中的“hive.Connection”连接到外部配置单元群集。 我的数据在spark数据框中。 我的问题是,如何从位于不同集群(而不是DataRicks)中的Hive中的新表中的dataframes写入这些数据 谢谢每个Databricks部署都有一个中央配置单元元存储,所有集群都可以访问它来持久化表元数据。您可以选择使用现有的外部配置单元元存储实例,而不是使用DataRicks配置单元元存储 这描述了如何设置Azure Databri

我有pyspark笔记本在数据库里运行。 我使用pyhive中的“hive.Connection”连接到外部配置单元群集。 我的数据在spark数据框中。 我的问题是,如何从位于不同集群(而不是DataRicks)中的Hive中的新表中的dataframes写入这些数据


谢谢

每个Databricks部署都有一个中央配置单元元存储,所有集群都可以访问它来持久化表元数据。您可以选择使用现有的外部配置单元元存储实例,而不是使用DataRicks配置单元元存储

这描述了如何设置Azure Databricks群集以连接到现有的外部Apache配置单元元存储。它提供了有关建议的元存储设置和集群配置要求的信息,然后是配置集群以连接到外部元存储的说明


您可以查看这篇关于的文章。

谢谢您的回复。这是我做的第一件事。我已经看完这一页了。问题在于,配置单元元存储端口没有暴露给外部站点(如Databrick)。所以我现在唯一的选择就是HiveServer2。使用pyhive中的“hive.Connection”读取速度非常慢。我正在寻找一个选项,将加快阅读也。