pyspark从运行在azure云上的Databrick写入外部配置单元群集_Pyspark_Hive_Azure Databricks_Pyhive

pyspark从运行在azure云上的Databrick写入外部配置单元群集

pyspark hive

pyspark从运行在azure云上的Databrick写入外部配置单元群集,pyspark,hive,azure-databricks,pyhive,Pyspark,Hive,Azure Databricks,Pyhive,我有pyspark笔记本在数据库里运行。我使用pyhive中的“hive.Connection”连接到外部配置单元群集。我的数据在spark数据框中。我的问题是，如何从位于不同集群（而不是DataRicks）中的Hive中的新表中的dataframes写入这些数据谢谢每个Databricks部署都有一个中央配置单元元存储，所有集群都可以访问它来持久化表元数据。您可以选择使用现有的外部配置单元元存储实例，而不是使用DataRicks配置单元元存储这描述了如何设置Azure Databri

我有pyspark笔记本在数据库里运行。我使用pyhive中的“hive.Connection”连接到外部配置单元群集。我的数据在spark数据框中。我的问题是，如何从位于不同集群（而不是DataRicks）中的Hive中的新表中的dataframes写入这些数据

谢谢

每个Databricks部署都有一个中央配置单元元存储，所有集群都可以访问它来持久化表元数据。您可以选择使用现有的外部配置单元元存储实例，而不是使用DataRicks配置单元元存储

这描述了如何设置Azure Databricks群集以连接到现有的外部Apache配置单元元存储。它提供了有关建议的元存储设置和集群配置要求的信息，然后是配置集群以连接到外部元存储的说明

您可以查看这篇关于的文章。

谢谢您的回复。这是我做的第一件事。我已经看完这一页了。问题在于，配置单元元存储端口没有暴露给外部站点（如Databrick）。所以我现在唯一的选择就是HiveServer2。使用pyhive中的“hive.Connection”读取速度非常慢。我正在寻找一个选项，将加快阅读也。