Indexing 如何使用Nutch仅索引具有特定URL的页面？_Indexing_Nutch_Restrict_Url

Indexing 如何使用Nutch仅索引具有特定URL的页面？

indexing url

Indexing 如何使用Nutch仅索引具有特定URL的页面？,indexing,nutch,restrict,url,Indexing,Nutch,Restrict,Url,我想让nutch抓取abc.com，但我只想索引car.abc.com。car.abc.com链接可以在abc.com的任何级别进行。所以，基本上，我想让nutch正常地抓取abc.com，但只索引以car.abc.com开头的页面。e、汽车abc.com/丰田…汽车abc.com/本田我将regex-urlfilter.txt设置为仅包含car.abc.com，并运行命令“generate crawl/crawldb crawl/segments”，但它只会说“Generator:0条选择

我想让nutch抓取abc.com，但我只想索引car.abc.com。car.abc.com链接可以在abc.com的任何级别进行。所以，基本上，我想让nutch正常地抓取abc.com，但只索引以car.abc.com开头的页面。e、汽车abc.com/丰田…汽车abc.com/本田

我将regex-urlfilter.txt设置为仅包含car.abc.com，并运行命令“generate crawl/crawldb crawl/segments”，但它只会说“Generator:0条选择用于获取、退出的记录…”。我猜car.abc.com链接只存在于几个层次

如何做到这一点？

谢谢

一种方法是使用mergedb命令的-filter开关。该命令将一个爬网数据库作为输入，并创建了一个新的爬网数据库，其中过滤了一些URL。只需使用过滤后的爬网数据库进行索引

唯一的缺点是，我没有找到方法让mergedb命令使用除regex-urlfilter.txt以外的另一个文件，regex-urlfilter.txt是生成器使用的文件。您必须维护两个文件，如regex-urlfilter.txt：一个用于abc.com的生成器，另一个用于mergedb命令，该命令排除与car.abc.com不同的URL。但是，由于这两个命令都尝试加载相同的文件，因此在调用这两个命令之一之前，必须将相应的文件重命名为regex-urlfilter.txt

如果有人知道如何将mergedb命令配置为使用另一个文件，我很乐意听到