Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/java/308.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
有好的Java HTML解析器吗?_Java_Html_Xpath - Fatal编程技术网

有好的Java HTML解析器吗?

有好的Java HTML解析器吗?,java,html,xpath,Java,Html,Xpath,我一直在使用Cobra,因为它非常简单,但不幸的是,它在一些测试用例中出现了一些问题。有人建议建立一个经过测试的图书馆吗 我试过Cobra的内置软件和HTMLCleaner,但运气不好。看一看,不,我对产品没有任何参与,只是一个满意的用户。看起来很有趣。根据定义,它应该和Gecko引擎一样好,这很可能满足您的需求。在处理蹩脚的HTML/XHTML时非常棒 和也适用于解析无效的HTML 塔格苏普和杰里科:尝试和测试。NekoHTML:来自可靠来源的反馈。[回答标题-整体问题和评论未发送] JTid

我一直在使用Cobra,因为它非常简单,但不幸的是,它在一些测试用例中出现了一些问题。有人建议建立一个经过测试的图书馆吗

我试过Cobra的内置软件和HTMLCleaner,但运气不好。

看一看,不,我对产品没有任何参与,只是一个满意的用户。

看起来很有趣。根据定义,它应该和Gecko引擎一样好,这很可能满足您的需求。

在处理蹩脚的HTML/XHTML时非常棒

和也适用于解析无效的HTML


塔格苏普和杰里科:尝试和测试。NekoHTML:来自可靠来源的反馈。

[回答标题-整体问题和评论未发送]


JTidy是Dave Raggett的HTMLTidy的一个端口。这是非常有用的,尽管我认为开发可能已经放缓/停止。

我建议,基于HTML5解析算法。Mozilla目前正在用这个语法分析器替换它自己的HTML语法分析器。

根据您的上一个问题判断,问题不在于XPath evaluator。您使用的是XPathFactory.newInstance,它创建了一个股票Java evaluator,用于处理作为文档实例加载到DOM模型中的任何XML文档。CORBA本身不是一个XPath计算器——它是一个生成文档的HTML解析器,在您的例子中它做得不对。所以你真正想要的是一个好的Java HTML解析器,而不是好的Java XPath计算器。。。很抱歉我修改了我的问题。。。我对眼前所有的HTML都快发疯了……我确信本周早些时候也有同样的问题……Saxon是一个很棒的XSLT 2.0&XQuery实现,但它不解析HTML。@Pavel-最初的问题没有提到HTML