Java 在格式错误的HTML中按类型获取元素_Java_Html Parsing

Java 在格式错误的HTML中按类型获取元素

java

Java 在格式错误的HTML中按类型获取元素,java,html-parsing,Java,Html Parsing,在Java中，检索格式错误的HTML页面中具有特定类型的所有元素的最简单方法是什么？所以我想这样做： public static void main(String[] args) { // Read in an HTML file from disk // Retrieve all INPUT elements regardless of whether the HTML is well-formed // Loop through all elements and re

在Java中，检索格式错误的HTML页面中具有特定类型的所有元素的最简单方法是什么？所以我想这样做：

public static void main(String[] args) {
    // Read in an HTML file from disk
    // Retrieve all INPUT elements regardless of whether the HTML is well-formed
    // Loop through all elements and retrieve their ids if they exist for the element
}

在处理（某种程度上）格式错误的HTML时，可以说是最好的HTML解析器之一

文档包括一些代码示例；您基本上是在寻找

getElementsByName（）

方法

看看你是否正在考虑其他库。

在处理（某种程度上）格式错误的HTML时，可以说是最好的HTML解析器之一

文档包括一些代码示例；您基本上是在寻找

getElementsByName（）

方法

如果您正在考虑其他库，请查看。

检查

JTidy是htmltidy的Java端口，是一个 HTML语法检查器和pretty 打印机就像它的非爪哇兄弟一样， JTidy可以用作清理格式错误和错误的HTML。此外，JTidy还提供了一个DOM 接口到正在创建的文档正在处理中，有效地使您能够将JTidy用作DOM 真实世界HTML的解析器

检查

我已经成功地使用了。以下是他们主页上的简短描述：

这是TagSoup的主页，TagSoup是一个兼容SAX的解析器，用Java编写，它不是解析格式良好或有效的XML，而是解析在野外发现的HTML：糟糕、讨厌、粗野，但通常并不简短。TagSoup是为那些必须使用某种类似于rational应用程序设计的方式来处理这些内容的人而设计的。通过提供SAX接口，它允许将标准XML工具应用于最糟糕的HTML。TagSoup还包括一个命令行处理器，用于读取HTML文件，并可以生成干净的HTML或格式良好的XML，这些XML与XHTML非常接近

我已经成功地使用了。以下是他们主页上的简短描述：