在Java中解析元标记

在Java中解析元标记,java,html,xml,parsing,Java,Html,Xml,Parsing,我有一个HTML文档集合,我需要解析该部分中标记的内容。这些是我唯一感兴趣的HTML标记的值,也就是说,我不需要解析该部分中的任何内容 我尝试使用JDom提供的XPath支持来解析这些值。然而,这并不是很好,因为该部分中的许多HTML都不是有效的XML 有人对我如何以处理格式错误的HTML的方式解析这些标记值有什么建议吗 干杯, 如果它适合您的应用程序,您可以使用它将HTML转换为有效的XML,然后尽可能多地使用XPath 应该提供一个很好的起点。您可以使用。特别是,请查看如何查找特定标记。的可

我有一个HTML文档集合,我需要解析该部分中标记的内容。这些是我唯一感兴趣的HTML标记的值,也就是说,我不需要解析该部分中的任何内容

我尝试使用JDom提供的XPath支持来解析这些值。然而,这并不是很好,因为该部分中的许多HTML都不是有效的XML

有人对我如何以处理格式错误的HTML的方式解析这些标记值有什么建议吗

干杯,
如果它适合您的应用程序,您可以使用它将HTML转换为有效的XML,然后尽可能多地使用XPath

应该提供一个很好的起点。

您可以使用。特别是,请查看如何查找特定标记。

的可能重复项(尽管此处的答案更好)