Indexing 如何使用Nutch仅索引具有特定URL的页面?

Indexing 如何使用Nutch仅索引具有特定URL的页面?,indexing,nutch,restrict,url,Indexing,Nutch,Restrict,Url,我想让nutch抓取abc.com,但我只想索引car.abc.com。car.abc.com链接可以在abc.com的任何级别进行。所以,基本上,我想让nutch正常地抓取abc.com,但只索引以car.abc.com开头的页面。e、 汽车abc.com/丰田…汽车abc.com/本田 我将regex-urlfilter.txt设置为仅包含car.abc.com,并运行命令“generate crawl/crawldb crawl/segments”,但它只会说“Generator:0条选择

我想让nutch抓取abc.com,但我只想索引car.abc.com。car.abc.com链接可以在abc.com的任何级别进行。所以,基本上,我想让nutch正常地抓取abc.com,但只索引以car.abc.com开头的页面。e、 汽车abc.com/丰田…汽车abc.com/本田

我将regex-urlfilter.txt设置为仅包含car.abc.com,并运行命令“generate crawl/crawldb crawl/segments”,但它只会说“Generator:0条选择用于获取、退出的记录…”。我猜car.abc.com链接只存在于几个层次

如何做到这一点?
谢谢

一种方法是使用mergedb命令的-filter开关。该命令将一个爬网数据库作为输入,并创建了一个新的爬网数据库,其中过滤了一些URL。只需使用过滤后的爬网数据库进行索引

唯一的缺点是,我没有找到方法让mergedb命令使用除regex-urlfilter.txt以外的另一个文件,regex-urlfilter.txt是生成器使用的文件。您必须维护两个文件,如regex-urlfilter.txt:一个用于abc.com的生成器,另一个用于mergedb命令,该命令排除与car.abc.com不同的URL。但是,由于这两个命令都尝试加载相同的文件,因此在调用这两个命令之一之前,必须将相应的文件重命名为regex-urlfilter.txt


如果有人知道如何将mergedb命令配置为使用另一个文件,我很乐意听到

一种方法是使用mergedb命令的-filter开关。该命令将一个爬网数据库作为输入,并创建了一个新的爬网数据库,其中过滤了一些URL。只需使用过滤后的爬网数据库进行索引

唯一的缺点是,我没有找到方法让mergedb命令使用除regex-urlfilter.txt以外的另一个文件,regex-urlfilter.txt是生成器使用的文件。您必须维护两个文件,如regex-urlfilter.txt:一个用于abc.com的生成器,另一个用于mergedb命令,该命令排除与car.abc.com不同的URL。但是,由于这两个命令都尝试加载相同的文件,因此在调用这两个命令之一之前,必须将相应的文件重命名为regex-urlfilter.txt

如果有人知道如何将mergedb命令配置为使用另一个文件,我很乐意听到