Hive 配置单元上无分区表的优势?

Hive 配置单元上无分区表的优势?,hive,Hive,与分区表相比,配置单元上的非分区表有什么优势吗?它们的特殊用例 如果有人能帮忙,那就太好了。:) 这样说吧:在数据库世界中,分区可以用来解决不同类型的问题。只要您没有明确的问题,就不用担心分区(即“如果它没有损坏,就不要修复它”)。无论何时遇到问题,请DB架构师找到解决方案—可能涉及分区,也可能不涉及分区 但Hive不是一个典型的数据库。分区无处不在,只是因为它是缺少索引的一个粗糙的解决方法 (实际上,ORC格式有自己的解决方法[在每个条带的每列中存储最小/最大值,这允许跳过无用的条带],因此分

与分区表相比,配置单元上的非分区表有什么优势吗?它们的特殊用例


如果有人能帮忙,那就太好了。:)

这样说吧:在数据库世界中,分区可以用来解决不同类型的问题。只要您没有明确的问题,就不用担心分区(即“如果它没有损坏,就不要修复它”)。无论何时遇到问题,请DB架构师找到解决方案—可能涉及分区,也可能不涉及分区

但Hive不是一个典型的数据库。分区无处不在,只是因为它是缺少索引的一个粗糙的解决方法


(实际上,ORC格式有自己的解决方法[在每个条带的每列中存储最小/最大值,这允许跳过无用的条带],因此分区对于该格式来说不那么重要)

这样说吧:在数据库世界中,分区可用于解决不同类型的问题。只要您没有明确的问题,就不用担心分区(即“如果它没有损坏,就不要修复它”)。无论何时遇到问题,请DB架构师找到解决方案—可能涉及分区,也可能不涉及分区

但Hive不是一个典型的数据库。分区无处不在,只是因为它是缺少索引的一个粗糙的解决方法


(实际上,ORC格式有自己的解决方法[在每个条带的每列中存储最小/最大值,这允许跳过无用的条带],因此分区对于该格式来说不那么重要)

这样说吧:在数据库世界中,分区可用于解决不同类型的问题。只要您没有明确的问题,就不用担心分区(即“如果它没有损坏,就不要修复它”)。无论何时遇到问题,请DB架构师找到解决方案—可能涉及分区,也可能不涉及分区

但Hive不是一个典型的数据库。分区无处不在,只是因为它是缺少索引的一个粗糙的解决方法


(实际上,ORC格式有自己的解决方法[在每个条带的每列中存储最小/最大值,这允许跳过无用的条带],因此分区对于该格式来说不那么重要)

这样说吧:在数据库世界中,分区可用于解决不同类型的问题。只要您没有明确的问题,就不用担心分区(即“如果它没有损坏,就不要修复它”)。无论何时遇到问题,请DB架构师找到解决方案—可能涉及分区,也可能不涉及分区

但Hive不是一个典型的数据库。分区无处不在,只是因为它是缺少索引的一个粗糙的解决方法


(实际上,ORC格式有自己的解决方法[在每个条带的每列中存储最小/最大值,这允许跳过无用的条带],因此分区对于该格式来说不那么重要)

如果不使用分区,有什么缺点吗?我的意思是,如果有一个好的实践,配置单元表必须有分区吗?再说一遍:没有通用的好实践。这就是为什么在Hadoop世界中,在老技术领域拥有丰富经验的老家伙有时很有用的原因:-)从设计角度来看,Hive中的分区表和非分区表都很好?如果使用非分区不符合良好做法,我会感到担心。:)根据数量和速度(几年前被称为信息生命周期)判断每个表==>您每天添加多少数据?增量,还是截断并替换?您通常只查询最近的数据吗?等等,我只需要查询中的最新数据,任何建议都很感激:)如果不使用分区,有什么缺点吗?我的意思是,如果有一个好的实践,配置单元表必须有分区吗?再说一遍:没有通用的好实践。这就是为什么在Hadoop世界中,在老技术领域拥有丰富经验的老家伙有时很有用的原因:-)从设计角度来看,Hive中的分区表和非分区表都很好?如果使用非分区不符合良好做法,我会感到担心。:)根据数量和速度(几年前被称为信息生命周期)判断每个表==>您每天添加多少数据?增量,还是截断并替换?您通常只查询最近的数据吗?等等,我只需要查询中的最新数据,任何建议都很感激:)如果不使用分区,有什么缺点吗?我的意思是,如果有一个好的实践,配置单元表必须有分区吗?再说一遍:没有通用的好实践。这就是为什么在Hadoop世界中,在老技术领域拥有丰富经验的老家伙有时很有用的原因:-)从设计角度来看,Hive中的分区表和非分区表都很好?如果使用非分区不符合良好做法,我会感到担心。:)根据数量和速度(几年前被称为信息生命周期)判断每个表==>您每天添加多少数据?增量,还是截断并替换?您通常只查询最近的数据吗?等等,我只需要查询中的最新数据,任何建议都很感激:)如果不使用分区,有什么缺点吗?我的意思是,如果有一个好的实践,配置单元表必须有分区吗?再说一遍:没有通用的好实践。这就是为什么在Hadoop世界中,在老技术领域拥有丰富经验的老家伙有时很有用的原因:-)从设计角度来看,Hive中的分区表和非分区表都很好?如果使用非分区不符合良好做法,我会感到担心。:)根据数量和速度(几年前被称为信息生命周期)判断每个表==>您每天添加多少数据?增量,还是截断并替换?您通常只查询最近的数据吗?等等。我只需要查询中的最新数据,任何建议都将不胜感激:)