Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/java/389.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Java 我应该使用什么html解析器?_Java_Tag Soup_Jericho Html Parser_Crawler4j - Fatal编程技术网

Java 我应该使用什么html解析器?

Java 我应该使用什么html解析器?,java,tag-soup,jericho-html-parser,crawler4j,Java,Tag Soup,Jericho Html Parser,Crawler4j,我正在开发一个需要解析HTML文档的产品。我找了杰里科,塔格苏普,杰索普和克劳夫4J。当我需要在使用quartz的多线程环境中运行此过程时,应该使用哪个解析器来解析HTML 如果每次有10个线程在内存中运行,那么我需要一个消耗更少内存的API。在jericho,我在某处读到它是基于文本的搜索API,占用的内存更少。我说得对吗?或者我应该去别的地方,为什么 测试它们并检查它们的内存占用。在不知道并测试要解析的HTML的情况下,很难预测内存配置文件 FFIW,我在许多不同的系统中使用了Jsoup,我

我正在开发一个需要解析HTML文档的产品。我找了杰里科,塔格苏普,杰索普和克劳夫4J。当我需要在使用quartz的多线程环境中运行此过程时,应该使用哪个解析器来解析HTML


如果每次有10个线程在内存中运行,那么我需要一个消耗更少内存的API。在jericho,我在某处读到它是基于文本的搜索API,占用的内存更少。我说得对吗?或者我应该去别的地方,为什么

测试它们并检查它们的内存占用。在不知道并测试要解析的HTML的情况下,很难预测内存配置文件

FFIW,我在许多不同的系统中使用了Jsoup,我发现它工作得非常好。我也从未注意到它有任何严重的内存问题。

我正在使用JSoup,对此印象深刻。它在解析方面非常快,而且它的CSS样式的内容模式匹配比XPath更容易维护

我首先尝试了Validator.nu的解析器,发现它非常缺乏。文档很薄,我无法让它正确执行在Chrome中运行良好的XPath

此外,请查看以下问题: