Hive 配置单元/粘合表中特定于分区的模式背后的基本原理

Hive 配置单元/粘合表中特定于分区的模式背后的基本原理,hive,aws-glue-data-catalog,hive-partitions,Hive,Aws Glue Data Catalog,Hive Partitions,我试图理解为配置单元/粘合表管理的特定于分区的模式背后的原理。尽管如此,我找不到任何文档,特别是关于这一点的,但在我的搜索过程中,我发现了一些Hive JIRAs(见参考资料中的附件),它们暗示了它的用途。从我收集的资料来看,分区模式是表模式注册时的快照,它允许配置单元支持模式演化,而不会使现有表分区和底层数据无效。此外,它使配置单元能够支持不同的分区和表级文件格式,从而为客户端提供了更大的灵活性 我还不清楚确切的目的,因此请专家们就以下问题发表意见: 维护特定于分区的模式背后的基本原理是什么

我试图理解为配置单元/粘合表管理的特定于分区的模式背后的原理。尽管如此,我找不到任何文档,特别是关于这一点的,但在我的搜索过程中,我发现了一些Hive JIRAs(见参考资料中的附件),它们暗示了它的用途。从我收集的资料来看,分区模式是表模式注册时的快照,它允许配置单元支持模式演化,而不会使现有表分区和底层数据无效。此外,它使配置单元能够支持不同的分区和表级文件格式,从而为客户端提供了更大的灵活性

我还不清楚确切的目的,因此请专家们就以下问题发表意见:

  • 维护特定于分区的模式背后的基本原理是什么
  • 在分区和表模式不一致的情况下,配置单元/胶水的行为如何?分辨率标准是否考虑或依赖于基础数据文件格式?
  • 不在表元数据中维护特定于分区的模式会产生什么影响
实验和观察:

在我这方面,我做了一个实验,使用Spark Shell、Hive CLI和Athena,在分区属性中没有明确的模式定义(底层数据文件是用拼花地板编写的)的情况下,针对Glue table测试了一些count、count以及分区过滤器和模式描述查询。检索的结果与根据原始表格计算的结果一致

参考资料:

谢谢