Java ApacheNutchFetch和updatedb阶段_Java_Apache_Parsing_Html Parsing_Nutch

Java ApacheNutchFetch和updatedb阶段

java apache parsing

Java ApacheNutchFetch和updatedb阶段,java,apache,parsing,html-parsing,nutch,Java,Apache,Parsing,Html Parsing,Nutch,我有一个关于Nutch获取链接以更新爬网数据库的方式的问题有问题的命令是bin/nutch updatedb crawl/crawdb$s1 我需要编写一个自定义解析器，在这样做之前，我已经检查了Nutch的源代码，就我而言，我负责提供更新crawldb的链接，方法是从文档中提取crawldb，并将其作为Outlink[]放入ParseData中。至少这是我从中学到的如果我错了，请纠正我，因为我不希望我的爬虫程序在第一次迭代后停止，因为它没有更新爬虫数据库的链接。Nutch使用parse h

我有一个关于Nutch获取链接以更新爬网数据库的方式的问题

有问题的命令是

bin/nutch updatedb crawl/crawdb$s1

我需要编写一个自定义解析器，在这样做之前，我已经检查了Nutch的源代码，就我而言，我负责提供更新crawldb的链接，方法是从文档中提取crawldb，并将其作为Outlink[]放入ParseData中。至少这是我从中学到的

如果我错了，请纠正我，因为我不希望我的爬虫程序在第一次迭代后停止，因为它没有更新爬虫数据库的链接。

Nutch使用

parse html

或

parse tika

来解析你的爬虫URL（通常是html）。在此阶段，提取并存储大纲链接，当您执行爬虫程序的新迭代时，Nutch将选择一些可用的（提取的）链接以继续爬虫，如果您需要从web提取其他信息，您只需要编写自己的解析器，例如，您希望所有

h1

标题都位于单独的字段中

如果您查看爬网脚本（），您将看到updatedb命令将在每次迭代中执行一次，因此，如果您使用

parse html

或

parse tika

，html文档的大纲链接（以及其他内容）将自动为您提取。

那么我的大纲链接[]是正确的，是吗？我放在那里的链接将在下一次迭代中使用，对吗？不完全是在下一次迭代中，还有更多的事情（评分）和生成器中的逻辑，但是如果你在

Outlinks[]

中放一些链接，那么它可以用于下一次迭代，具体取决于评分，

-topN

参数等。请记住，URL筛选器可能会根据您的配置排除某些URL。谢谢，这正是我需要知道的。