Apache spark Databricks:全局非托管表、分区元数据同步保证 客观的
我想从ADL数据创建数据,并从多个集群(自动化和交互式)使用它们。所以我先做Apache spark Databricks:全局非托管表、分区元数据同步保证 客观的,apache-spark,hive,databricks,azure-databricks,Apache Spark,Hive,Databricks,Azure Databricks,我想从ADL数据创建数据,并从多个集群(自动化和交互式)使用它们。所以我先做createtable my_TABLE…,然后MSCK REPAIR TABLE my_TABLE。我正在使用Databricks内部Hive metastore 问题 有时,MSCK修复没有跨集群同步(在几个小时内)。意味着集群1立即看到了分区,而集群2有一段时间没有看到任何数据 有时它是同步的,但我仍然不明白为什么它在其他情况下不起作用 问题: Databrick是否为每个集群使用单独的内部配置单元元存储?如果是,
createtable my_TABLE…
,然后MSCK REPAIR TABLE my_TABLE
。我正在使用Databricks内部Hive metastore
问题
有时,MSCK修复
没有跨集群同步(在几个小时内)。意味着集群1立即看到了分区,而集群2有一段时间没有看到任何数据
有时它是同步的,但我仍然不明白为什么它在其他情况下不起作用
问题:
Databrick是否为每个集群使用单独的内部配置单元元存储?如果是,是否保证集群之间的同步?我相信每个databricks部署都有一个配置单元元存储: 因此,如果要立即更新元存储,那么下一个最可能的问题是缓存了旧表元数据,因此看不到更新。你试过跑步吗
REFRESH <database>.<table>;
刷新。;
在出现同步问题的群集上