Java 在格式错误的HTML中按类型获取元素
在Java中,检索格式错误的HTML页面中具有特定类型的所有元素的最简单方法是什么?所以我想这样做:Java 在格式错误的HTML中按类型获取元素,java,html-parsing,Java,Html Parsing,在Java中,检索格式错误的HTML页面中具有特定类型的所有元素的最简单方法是什么?所以我想这样做: public static void main(String[] args) { // Read in an HTML file from disk // Retrieve all INPUT elements regardless of whether the HTML is well-formed // Loop through all elements and re
public static void main(String[] args) {
// Read in an HTML file from disk
// Retrieve all INPUT elements regardless of whether the HTML is well-formed
// Loop through all elements and retrieve their ids if they exist for the element
}
在处理(某种程度上)格式错误的HTML时,可以说是最好的HTML解析器之一
文档包括一些代码示例;您基本上是在寻找getElementsByName()
方法
看看你是否正在考虑其他库。在处理(某种程度上)格式错误的HTML时,可以说是最好的HTML解析器之一
文档包括一些代码示例;您基本上是在寻找getElementsByName()
方法
如果您正在考虑其他库,请查看。检查
JTidy是htmltidy的Java端口,是一个
HTML语法检查器和pretty
打印机就像它的非爪哇兄弟一样,
JTidy可以用作
清理格式错误和错误的HTML。
此外,JTidy还提供了一个DOM
接口到正在创建的文档
正在处理中,有效地
使您能够将JTidy用作DOM
真实世界HTML的解析器
检查
JTidy是htmltidy的Java端口,是一个
HTML语法检查器和pretty
打印机就像它的非爪哇兄弟一样,
JTidy可以用作
清理格式错误和错误的HTML。
此外,JTidy还提供了一个DOM
接口到正在创建的文档
正在处理中,有效地
使您能够将JTidy用作DOM
真实世界HTML的解析器
我已经成功地使用了。以下是他们主页上的简短描述:
这是TagSoup的主页,TagSoup是一个兼容SAX的解析器,用Java编写,它不是解析格式良好或有效的XML,而是解析在野外发现的HTML:糟糕、讨厌、粗野,但通常并不简短。TagSoup是为那些必须使用某种类似于rational应用程序设计的方式来处理这些内容的人而设计的。通过提供SAX接口,它允许将标准XML工具应用于最糟糕的HTML。TagSoup还包括一个命令行处理器,用于读取HTML文件,并可以生成干净的HTML或格式良好的XML,这些XML与XHTML非常接近
我已经成功地使用了。以下是他们主页上的简短描述:
这是TagSoup的主页,TagSoup是一个兼容SAX的解析器,用Java编写,它不是解析格式良好或有效的XML,而是解析在野外发现的HTML:糟糕、讨厌、粗野,但通常并不简短。TagSoup是为那些必须使用某种类似于rational应用程序设计的方式来处理这些内容的人而设计的。通过提供SAX接口,它允许将标准XML工具应用于最糟糕的HTML。TagSoup还包括一个命令行处理器,用于读取HTML文件,并可以生成干净的HTML或格式良好的XML,这些XML与XHTML非常接近