Apache spark 在deltaLake中使用超空间索引优于Z排序有什么好处？_Apache Spark_Databricks_Azure Databricks_Delta Lake_Z Order

Apache spark 在deltaLake中使用超空间索引优于Z排序有什么好处？

apache-spark

Apache spark 在deltaLake中使用超空间索引优于Z排序有什么好处？,apache-spark,databricks,azure-databricks,delta-lake,z-order,Apache Spark,Databricks,Azure Databricks,Delta Lake,Z Order,我在Azure Databricks中有以增量表格式存储的流数据。对于优化，我目前正在使用Z排序。使用超空间索引子系统比Z排序有什么好处吗？免责声明：我自己没有使用超空间，只是阅读文档和代码示例 Hyperspace by functionality更接近Databricks Delta实现的功能——它只允许读取必要的数据。但在Databrick上，数据的索引在写入时自动进行，而在Hyperspace中，您需要构建和维护索引是一种不同的功能—它优化了数据的放置，所以经常一起使用的数据很有可能真

我在Azure Databricks中有以增量表格式存储的流数据。对于优化，我目前正在使用Z排序。使用超空间索引子系统比Z排序有什么好处吗？

免责声明：我自己没有使用超空间，只是阅读文档和代码示例

Hyperspace by functionality更接近Databricks Delta实现的功能——它只允许读取必要的数据。但在Databrick上，数据的索引在写入时自动进行，而在Hyperspace中，您需要构建和维护索引

是一种不同的功能—它优化了数据的放置，所以经常一起使用的数据很有可能真正放置在一起，所以您可以读取更少的文件。Hyperspace没有这个功能——它只是索引数据，数据的位置由底层文件格式定义

另外，这里是Databricks关于数据跳过和ZOreder的优点。

我认为这是一个有效的问题-这不是关于“什么更好”，而是使用它的好处是什么？您是否可以作为参考：“但是在Databricks上，数据的索引在写入时自动发生”？我不确定这是否一定是真的。统计数据是在前N列上自动收集的（可配置，默认为32列）。bloom过滤器也是如此