Web crawler JSoup只正确处理一小部分HTML页面

Web crawler JSoup只正确处理一小部分HTML页面,web-crawler,apache-storm,stormcrawler,Web Crawler,Apache Storm,Stormcrawler,我不想垄断这个论坛,但一开始有很多问题 JSoup只正确处理web上找到的HTML页面的一小部分(肯定少于50%)并在其中发现新的URL,这正常吗?这就是我的种子文件所发生的事情,令人沮丧 或者有更好的解析器在那里我可以使用 检查http.content.limit的值。可能是因为文档被截断而导致部分结果 编辑:可以尝试查看JSoup生成的DOM是什么样子的。正如Sebastian所建议的,它可能与JS有关。很难相信一个成熟的HTML解析器项目(比如提交次数超过1000次的项目)会表现得如此糟糕

我不想垄断这个论坛,但一开始有很多问题

JSoup只正确处理web上找到的HTML页面的一小部分(肯定少于50%)并在其中发现新的URL,这正常吗?这就是我的种子文件所发生的事情,令人沮丧

或者有更好的解析器在那里我可以使用

检查http.content.limit的值。可能是因为文档被截断而导致部分结果


编辑:可以尝试查看JSoup生成的DOM是什么样子的。正如Sebastian所建议的,它可能与JS有关。

很难相信一个成熟的HTML解析器项目(比如提交次数超过1000次的项目)会表现得如此糟糕。你能分享一些例子和详细的指标吗?但是,我猜想您希望进行解析,包括通过JavaScript完成的所有页面依赖项和DOM树修改。看一看硒鼓。与只解析裸HTML页面相比,结果可能会有所不同。谢谢您的提示。它当前设置为2MB,我已经检查过相关文档是否明显低于此限制…谢谢,我正在尝试。但是,它究竟把DOMDump.xml放在哪里呢?在/tmp目录中