用nutch在hbase中为种子文件中的每个不同url创建不同的表？_Hbase_Nutch

用nutch在hbase中为种子文件中的每个不同url创建不同的表？

hbase

用nutch在hbase中为种子文件中的每个不同url创建不同的表？,hbase,nutch,Hbase,Nutch,我正在使用nutch 2.1与Hbase 0.92.1集成。当我从网站获取数据时，所有数据都只写入Hbase中的一个表中，这就是我的问题。该表的名称为网页有没有一种方法可以让我的种子文件中的每个不同URL都创建一个新表？我找到了它。简而言之，2.0 threre是表名前缀的所谓crawid:。我在搜索类似的功能，但无法理解如何在没有黑客攻击的情况下使用crawid 现在还不清楚的是inject可以接受一个-crawlId参数，例如nutch inject seed.txt-crawlId fi

我正在使用nutch 2.1与Hbase 0.92.1集成。当我从网站获取数据时，所有数据都只写入Hbase中的一个表中，这就是我的问题。该表的名称为网页

有没有一种方法可以让我的种子文件中的每个不同URL都创建一个新表？

我找到了它。简而言之，2.0 threre是表名前缀的所谓crawid:。

我在搜索类似的功能，但无法理解如何在没有黑客攻击的情况下使用crawid

现在还不清楚的是inject可以接受一个-crawlId参数，例如nutch inject seed.txt-crawlId firstSeed…这将在HBase中为整个.txt文件创建一个名为firstSeed_的单独表

对于上面的用例，编写一个bash脚本是相当简单的，它可以逐行读取.txt文件，并为每个URL提供一个新的爬行ID

！！！！！注意：对于与爬网相关的所有命令，您应该包括-crawlId标志，以指示您打算使用哪个表