Java 解析HTML文档并替换整个标记段的最佳方法

Java 解析HTML文档并替换整个标记段的最佳方法,java,html,vb.net,parsing,replace,Java,Html,Vb.net,Parsing,Replace,我正试图找到从上到下解析HTML文档的最佳方法 替换某些不同的标记组并创建更新的文件。 我更喜欢使用Java、VB.NET或PHP 有几个类,比如JSoup、Jericho等,它们似乎可以很好地替换特定的标记,但我尝试的是替换/重写整个片段 例如,我可能正在寻找一个表,例如 <table><tr><th>A header</th></tr><tr><td>Some text</td></tr&g

我正试图找到从上到下解析HTML文档的最佳方法 替换某些不同的标记组并创建更新的文件。 我更喜欢使用Java、VB.NET或PHP

有几个类,比如JSoup、Jericho等,它们似乎可以很好地替换特定的标记,但我尝试的是替换/重写整个片段

例如,我可能正在寻找一个表,例如

<table><tr><th>A header</th></tr><tr><td>Some text</td></tr><tr><td>More text</td></tr></table>
我想用

<div class="header">A header</div><p>Some text. More text</p>
但是,希望HTML文档的其余部分保持不变

有人这样做吗?最简单的方法是什么?你能推荐一个好的HTML解析器使用吗

我正在解析的文档是XHTML,因此我考虑过使用JavaDOM或SAX工具,但是,我发现这些工具相当麻烦,并且想知道是否有更好的方法来完成它,使用一些现有的类


非常感谢您的帮助。

是的,您需要一个html解析器来轻松正确地解析html。你可以用

jsoup是一个用于处理真实HTML的Java库。它提供 用于提取和操作数据的非常方便的API,使用 最好的DOM

使用soup解析html就这么简单:

String html = "<table><tr><th>A header</th></tr><tr><td>Some text</td></tr><tr><td>More text</td></tr></table>";
Document doc = Jsoup.parse(html);

是的,我看过Jsoup,但正如我所提到的,它似乎是为了更改特定的标记,但我没有发现替换标记段的示例。以一个表为例,您可能不知道它包含多少行。或者也许没有什么好的例子?在我的示例中,您将如何使用Jsoup来实现结果?