Hive 配置单元/粘合表中特定于分区的模式背后的基本原理_Hive_Aws Glue Data Catalog_Hive Partitions

Hive 配置单元/粘合表中特定于分区的模式背后的基本原理

hive

Hive 配置单元/粘合表中特定于分区的模式背后的基本原理,hive,aws-glue-data-catalog,hive-partitions,Hive,Aws Glue Data Catalog,Hive Partitions,我试图理解为配置单元/粘合表管理的特定于分区的模式背后的原理。尽管如此，我找不到任何文档，特别是关于这一点的，但在我的搜索过程中，我发现了一些Hive JIRAs（见参考资料中的附件），它们暗示了它的用途。从我收集的资料来看，分区模式是表模式注册时的快照，它允许配置单元支持模式演化，而不会使现有表分区和底层数据无效。此外，它使配置单元能够支持不同的分区和表级文件格式，从而为客户端提供了更大的灵活性我还不清楚确切的目的，因此请专家们就以下问题发表意见：维护特定于分区的模式背后的基本原理是什么

我试图理解为配置单元/粘合表管理的特定于分区的模式背后的原理。尽管如此，我找不到任何文档，特别是关于这一点的，但在我的搜索过程中，我发现了一些Hive JIRAs（见参考资料中的附件），它们暗示了它的用途。从我收集的资料来看，分区模式是表模式注册时的快照，它允许配置单元支持模式演化，而不会使现有表分区和底层数据无效。此外，它使配置单元能够支持不同的分区和表级文件格式，从而为客户端提供了更大的灵活性

我还不清楚确切的目的，因此请专家们就以下问题发表意见：

维护特定于分区的模式背后的基本原理是什么
在分区和表模式不一致的情况下，配置单元/胶水的行为如何？分辨率标准是否考虑或依赖于基础数据文件格式？
不在表元数据中维护特定于分区的模式会产生什么影响

实验和观察：

在我这方面，我做了一个实验，使用Spark Shell、Hive CLI和Athena，在分区属性中没有明确的模式定义（底层数据文件是用拼花地板编写的）的情况下，针对Glue table测试了一些count、count以及分区过滤器和模式描述查询。检索的结果与根据原始表格计算的结果一致

参考资料：

谢谢