Web crawler 我可以在stormcrawler中按锚点或标题过滤大纲链接吗?

Web crawler 我可以在stormcrawler中按锚点或标题过滤大纲链接吗?,web-crawler,stormcrawler,Web Crawler,Stormcrawler,我查看了JsoupParserBolt代码,在大纲链接通过过滤器后添加了锚。如果我想通过文本/锚点过滤掉链接,我必须在链接通过过滤器之前扩展JsoupParserBolt并向元数据添加锚点,这是真的吗?有没有其他方法可以在不更改java代码的情况下过滤URL 谢谢。好问题,谢谢!您可以创建一个ParseFilter来过滤大纲链接。他们可以访问具有get/setOutlinks()方法的对象。您的自定义ParseFilter应该能够实现过滤逻辑。最糟糕的情况是,您可以放弃现有的大纲链接,并使用do

我查看了JsoupParserBolt代码,在大纲链接通过过滤器后添加了锚。如果我想通过文本/锚点过滤掉链接,我必须在链接通过过滤器之前扩展JsoupParserBolt并向元数据添加锚点,这是真的吗?有没有其他方法可以在不更改java代码的情况下过滤URL


谢谢。

好问题,谢谢!您可以创建一个ParseFilter来过滤大纲链接。他们可以访问具有get/setOutlinks()方法的对象。您的自定义ParseFilter应该能够实现过滤逻辑。最糟糕的情况是,您可以放弃现有的大纲链接,并使用documentFragment重新分析文档