用nutch在hbase中为种子文件中的每个不同url创建不同的表?

用nutch在hbase中为种子文件中的每个不同url创建不同的表?,hbase,nutch,Hbase,Nutch,我正在使用nutch 2.1与Hbase 0.92.1集成。当我从网站获取数据时,所有数据都只写入Hbase中的一个表中,这就是我的问题。该表的名称为网页 有没有一种方法可以让我的种子文件中的每个不同URL都创建一个新表?我找到了它。简而言之,2.0 threre是表名前缀的所谓crawid:。我在搜索类似的功能,但无法理解如何在没有黑客攻击的情况下使用crawid 现在还不清楚的是inject可以接受一个-crawlId参数,例如nutch inject seed.txt-crawlId fi

我正在使用nutch 2.1与Hbase 0.92.1集成。当我从网站获取数据时,所有数据都只写入Hbase中的一个表中,这就是我的问题。该表的名称为网页


有没有一种方法可以让我的种子文件中的每个不同URL都创建一个新表?

我找到了它。简而言之,2.0 threre是表名前缀的所谓crawid:。

我在搜索类似的功能,但无法理解如何在没有黑客攻击的情况下使用crawid

现在还不清楚的是inject可以接受一个-crawlId参数,例如nutch inject seed.txt-crawlId firstSeed…这将在HBase中为整个.txt文件创建一个名为firstSeed_的单独表

对于上面的用例,编写一个bash脚本是相当简单的,它可以逐行读取.txt文件,并为每个URL提供一个新的爬行ID

!!!!!注意:对于与爬网相关的所有命令,您应该包括-crawlId标志,以指示您打算使用哪个表