根据具有数十亿行的计数器对hbase表进行排序

根据具有数十亿行的计数器对hbase表进行排序,hbase,Hbase,我一直在研究爬虫。URL列表存储在hbase表中,带有用于引用计数的计数器 我必须在任何时候对表进行排序,以获得前1000个URL,从而使爬虫程序专注于高值URL 一种选择是使用带过滤器的pig脚本并扫描hbase。 另一种选择是维护另一个以引用计数为键的表,但管理和存储开销会增加 请建议一种更好的方法。正确的解决方案是让一个服务在表上定期启动map reduces,以生成数据库中的前n个URL 然后,您可以定期查询该服务,或者让它使用当前的顶级URL更新一个表。Brother您是否解决了问题。

我一直在研究爬虫。URL列表存储在hbase表中,带有用于引用计数的计数器

我必须在任何时候对表进行排序,以获得前1000个URL,从而使爬虫程序专注于高值URL

一种选择是使用带过滤器的pig脚本并扫描hbase。 另一种选择是维护另一个以引用计数为键的表,但管理和存储开销会增加


请建议一种更好的方法。

正确的解决方案是让一个服务在表上定期启动map reduces,以生成数据库中的前n个URL


然后,您可以定期查询该服务,或者让它使用当前的顶级URL更新一个表。

Brother您是否解决了问题。如果是,请尽可能分享解决方案