Web crawler JSoup只正确处理一小部分HTML页面_Web Crawler_Apache Storm_Stormcrawler

Web crawler JSoup只正确处理一小部分HTML页面

web-crawler apache-storm

Web crawler JSoup只正确处理一小部分HTML页面,web-crawler,apache-storm,stormcrawler,Web Crawler,Apache Storm,Stormcrawler,我不想垄断这个论坛，但一开始有很多问题 JSoup只正确处理web上找到的HTML页面的一小部分（肯定少于50%）并在其中发现新的URL，这正常吗？这就是我的种子文件所发生的事情，令人沮丧或者有更好的解析器在那里我可以使用检查http.content.limit的值。可能是因为文档被截断而导致部分结果编辑：可以尝试查看JSoup生成的DOM是什么样子的。正如Sebastian所建议的，它可能与JS有关。很难相信一个成熟的HTML解析器项目（比如提交次数超过1000次的项目）会表现得如此糟糕

我不想垄断这个论坛，但一开始有很多问题

JSoup只正确处理web上找到的HTML页面的一小部分（肯定少于50%）并在其中发现新的URL，这正常吗？这就是我的种子文件所发生的事情，令人沮丧

或者有更好的解析器在那里我可以使用

检查http.content.limit的值。可能是因为文档被截断而导致部分结果

编辑：可以尝试查看JSoup生成的DOM是什么样子的。正如Sebastian所建议的，它可能与JS有关。

很难相信一个成熟的HTML解析器项目（比如提交次数超过1000次的项目）会表现得如此糟糕。你能分享一些例子和详细的指标吗？但是，我猜想您希望进行解析，包括通过JavaScript完成的所有页面依赖项和DOM树修改。看一看硒鼓。与只解析裸HTML页面相比，结果可能会有所不同。谢谢您的提示。它当前设置为2MB，我已经检查过相关文档是否明显低于此限制…谢谢，我正在尝试。但是，它究竟把DOMDump.xml放在哪里呢？在/tmp目录中