Hadoop 如何解决配置单元中的过度(过多)分区问题

Hadoop 如何解决配置单元中的过度(过多)分区问题,hadoop,hive,bigdata,Hadoop,Hive,Bigdata,如果在单个表中有更多分区,会出现什么问题。我计划在配置单元中创建一个历史记录表,它将包含7到8年的数据,我还计划使用日期键对该表进行分区。在这种情况下,我的表将有大约2500到3500个分区。这种过度分区是否会给我的namenode和datanode带来问题?每个条目分区条目将在namenode中占用多少内存?由于过度分区,我将面临什么问题?如果我将面临内存问题,请向我建议解决方案。如果你发现任何关于这个的好文章,请给我链接。 有没有其他方法可以解决这个问题 谢谢 Venkadesan E我不认

如果在单个表中有更多分区,会出现什么问题。我计划在配置单元中创建一个历史记录表,它将包含7到8年的数据,我还计划使用日期键对该表进行分区。在这种情况下,我的表将有大约2500到3500个分区。这种过度分区是否会给我的namenode和datanode带来问题?每个条目分区条目将在namenode中占用多少内存?由于过度分区,我将面临什么问题?如果我将面临内存问题,请向我建议解决方案。如果你发现任何关于这个的好文章,请给我链接。 有没有其他方法可以解决这个问题

谢谢
Venkadesan E

我不认为您正在为过度分区而挣扎,3.5K听起来还不错。分区数量较多的唯一问题是查询开始运行之前的时间,我想这是因为从metastore接收到分区元数据。我们在10k分区上遇到了真正的减速,3.5k应该适合您

Hi有解决方案吗目前我们大约有14k个分区,并且查询从未启动(等待了1.5-2个小时以上),其卡在映射初始化阶段,映射程序数=-1,提前感谢