Java ApacheNutchFetch和updatedb阶段

Java ApacheNutchFetch和updatedb阶段,java,apache,parsing,html-parsing,nutch,Java,Apache,Parsing,Html Parsing,Nutch,我有一个关于Nutch获取链接以更新爬网数据库的方式的问题 有问题的命令是bin/nutch updatedb crawl/crawdb$s1 我需要编写一个自定义解析器,在这样做之前,我已经检查了Nutch的源代码,就我而言,我负责提供更新crawldb的链接,方法是从文档中提取crawldb,并将其作为Outlink[]放入ParseData中。至少这是我从中学到的 如果我错了,请纠正我,因为我不希望我的爬虫程序在第一次迭代后停止,因为它没有更新爬虫数据库的链接。Nutch使用parse h

我有一个关于Nutch获取链接以更新爬网数据库的方式的问题

有问题的命令是
bin/nutch updatedb crawl/crawdb$s1

我需要编写一个自定义解析器,在这样做之前,我已经检查了Nutch的源代码,就我而言,我负责提供更新crawldb的链接,方法是从文档中提取crawldb,并将其作为Outlink[]放入ParseData中。至少这是我从中学到的


如果我错了,请纠正我,因为我不希望我的爬虫程序在第一次迭代后停止,因为它没有更新爬虫数据库的链接。

Nutch使用
parse html
parse tika
来解析你的爬虫URL(通常是html)。在此阶段,提取并存储大纲链接,当您执行爬虫程序的新迭代时,Nutch将选择一些可用的(提取的)链接以继续爬虫,如果您需要从web提取其他信息,您只需要编写自己的解析器,例如,您希望所有
h1
标题都位于单独的字段中


如果您查看爬网脚本(),您将看到updatedb命令将在每次迭代中执行一次,因此,如果您使用
parse html
parse tika
,html文档的大纲链接(以及其他内容)将自动为您提取。

那么我的大纲链接[]是正确的,是吗?我放在那里的链接将在下一次迭代中使用,对吗?不完全是在下一次迭代中,还有更多的事情(评分)和生成器中的逻辑,但是如果你在
Outlinks[]
中放一些链接,那么它可以用于下一次迭代,具体取决于评分,
-topN
参数等。请记住,URL筛选器可能会根据您的配置排除某些URL。谢谢,这正是我需要知道的。