Java 在格式错误的HTML中按类型获取元素

Java 在格式错误的HTML中按类型获取元素,java,html-parsing,Java,Html Parsing,在Java中,检索格式错误的HTML页面中具有特定类型的所有元素的最简单方法是什么?所以我想这样做: public static void main(String[] args) { // Read in an HTML file from disk // Retrieve all INPUT elements regardless of whether the HTML is well-formed // Loop through all elements and re

在Java中,检索格式错误的HTML页面中具有特定类型的所有元素的最简单方法是什么?所以我想这样做:

public static void main(String[] args) {
    // Read in an HTML file from disk
    // Retrieve all INPUT elements regardless of whether the HTML is well-formed
    // Loop through all elements and retrieve their ids if they exist for the element
}
在处理(某种程度上)格式错误的HTML时,可以说是最好的HTML解析器之一

文档包括一些代码示例;您基本上是在寻找
getElementsByName()
方法

看看你是否正在考虑其他库。

在处理(某种程度上)格式错误的HTML时,可以说是最好的HTML解析器之一

文档包括一些代码示例;您基本上是在寻找
getElementsByName()
方法

如果您正在考虑其他库,请查看。

检查

JTidy是htmltidy的Java端口,是一个 HTML语法检查器和pretty 打印机就像它的非爪哇兄弟一样, JTidy可以用作 清理格式错误和错误的HTML。 此外,JTidy还提供了一个DOM 接口到正在创建的文档 正在处理中,有效地 使您能够将JTidy用作DOM 真实世界HTML的解析器

检查

JTidy是htmltidy的Java端口,是一个 HTML语法检查器和pretty 打印机就像它的非爪哇兄弟一样, JTidy可以用作 清理格式错误和错误的HTML。 此外,JTidy还提供了一个DOM 接口到正在创建的文档 正在处理中,有效地 使您能够将JTidy用作DOM 真实世界HTML的解析器

我已经成功地使用了。以下是他们主页上的简短描述:

这是TagSoup的主页,TagSoup是一个兼容SAX的解析器,用Java编写,它不是解析格式良好或有效的XML,而是解析在野外发现的HTML:糟糕、讨厌、粗野,但通常并不简短。TagSoup是为那些必须使用某种类似于rational应用程序设计的方式来处理这些内容的人而设计的。通过提供SAX接口,它允许将标准XML工具应用于最糟糕的HTML。TagSoup还包括一个命令行处理器,用于读取HTML文件,并可以生成干净的HTML或格式良好的XML,这些XML与XHTML非常接近

我已经成功地使用了。以下是他们主页上的简短描述:

这是TagSoup的主页,TagSoup是一个兼容SAX的解析器,用Java编写,它不是解析格式良好或有效的XML,而是解析在野外发现的HTML:糟糕、讨厌、粗野,但通常并不简短。TagSoup是为那些必须使用某种类似于rational应用程序设计的方式来处理这些内容的人而设计的。通过提供SAX接口,它允许将标准XML工具应用于最糟糕的HTML。TagSoup还包括一个命令行处理器,用于读取HTML文件,并可以生成干净的HTML或格式良好的XML,这些XML与XHTML非常接近