Apache spark 在deltaLake中使用超空间索引优于Z排序有什么好处?

Apache spark 在deltaLake中使用超空间索引优于Z排序有什么好处?,apache-spark,databricks,azure-databricks,delta-lake,z-order,Apache Spark,Databricks,Azure Databricks,Delta Lake,Z Order,我在Azure Databricks中有以增量表格式存储的流数据。对于优化,我目前正在使用Z排序。使用超空间索引子系统比Z排序有什么好处吗?免责声明:我自己没有使用超空间,只是阅读文档和代码示例 Hyperspace by functionality更接近Databricks Delta实现的功能——它只允许读取必要的数据。但在Databrick上,数据的索引在写入时自动进行,而在Hyperspace中,您需要构建和维护索引 是一种不同的功能—它优化了数据的放置,所以经常一起使用的数据很有可能真

我在Azure Databricks中有以增量表格式存储的流数据。对于优化,我目前正在使用Z排序。使用超空间索引子系统比Z排序有什么好处吗?

免责声明:我自己没有使用超空间,只是阅读文档和代码示例

Hyperspace by functionality更接近Databricks Delta实现的功能——它只允许读取必要的数据。但在Databrick上,数据的索引在写入时自动进行,而在Hyperspace中,您需要构建和维护索引

是一种不同的功能—它优化了数据的放置,所以经常一起使用的数据很有可能真正放置在一起,所以您可以读取更少的文件。Hyperspace没有这个功能——它只是索引数据,数据的位置由底层文件格式定义


另外,这里是Databricks关于数据跳过和ZOreder的优点。

我认为这是一个有效的问题-这不是关于“什么更好”,而是使用它的好处是什么?您是否可以作为参考:“但是在Databricks上,数据的索引在写入时自动发生”?我不确定这是否一定是真的。统计数据是在前N列上自动收集的(可配置,默认为32列)。bloom过滤器也是如此