Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/java/358.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Java 解析HTML并获取所有节点_Java_Html_Parsing - Fatal编程技术网

Java 解析HTML并获取所有节点

Java 解析HTML并获取所有节点,java,html,parsing,Java,Html,Parsing,我需要用java解析一个HTML文件。与XML不同,它没有重复的标记。所以我需要一个可以解析html文件并到达所有节点的代码,它包括嵌套的标记。。等等。HTML代码不是固定的。换句话说,给定任何HTML代码,我需要访问HTML中的所有标记。我认为您需要这个 var els=document.getElementsByTagName("*"); for(var i=0;i<els.length;i+)document.write(els.nodeName+"<br />");

我需要用java解析一个HTML文件。与XML不同,它没有重复的标记。所以我需要一个可以解析html文件并到达所有节点的代码,它包括嵌套的标记。。等等。HTML代码不是固定的。换句话说,给定任何HTML代码,我需要访问HTML中的所有标记。

我认为您需要这个

var els=document.getElementsByTagName("*");
for(var i=0;i<els.length;i+)document.write(els.nodeName+"<br />");
var els=document.getElementsByTagName(“*”);
对于(var i=0;i请尝试此HTML解析器

不,它不会解析最内部的节点。你还有其他想法吗?java中也有类似的方法。我尝试过。它不起作用。Hmmm无法理解。请你解释一下。这是一种可以在java中使用的HTML解析器,它将以xml格式返回所有HTML内容,例如标记将被设置为节点和其他文本entents和all.CHeck示例这些示例都是命令行。我找不到java示例。很抱歉打扰你。我是一个业余爱好者。这些示例可能都是命令行,但它们还包括指向相关API类的Javadoc的链接。例如,在
Lexer
的条目中,它说,“打印网页的低级节点“这听起来就像你要找的东西。它链接到。整个东西的源代码也可以研究。现在你试过什么了?我试过jericho、jtidy、jsoup。但我想不出来。我在网上找不到任何具体的示例代码来解析html中的所有标记。这个问题是相关的