Java 解析HTML文档并替换整个标记段的最佳方法_Java_Html_Vb.net_Parsing_Replace

Java 解析HTML文档并替换整个标记段的最佳方法

java html vb.net parsing replace

Java 解析HTML文档并替换整个标记段的最佳方法,java,html,vb.net,parsing,replace,Java,Html,Vb.net,Parsing,Replace,我正试图找到从上到下解析HTML文档的最佳方法替换某些不同的标记组并创建更新的文件。我更喜欢使用Java、VB.NET或PHP 有几个类，比如JSoup、Jericho等，它们似乎可以很好地替换特定的标记，但我尝试的是替换/重写整个片段例如，我可能正在寻找一个表，例如 <table><tr><th>A header</th></tr><tr><td>Some text</td></tr&g

我正试图找到从上到下解析HTML文档的最佳方法替换某些不同的标记组并创建更新的文件。我更喜欢使用Java、VB.NET或PHP

有几个类，比如JSoup、Jericho等，它们似乎可以很好地替换特定的标记，但我尝试的是替换/重写整个片段

例如，我可能正在寻找一个表，例如

<table><tr><th>A header</th></tr><tr><td>Some text</td></tr><tr><td>More text</td></tr></table>

我想用

<div class="header">A header</div><p>Some text. More text</p>

但是，希望HTML文档的其余部分保持不变

有人这样做吗？最简单的方法是什么？你能推荐一个好的HTML解析器使用吗

我正在解析的文档是XHTML，因此我考虑过使用JavaDOM或SAX工具，但是，我发现这些工具相当麻烦，并且想知道是否有更好的方法来完成它，使用一些现有的类

非常感谢您的帮助。

是的，您需要一个html解析器来轻松正确地解析html。你可以用

jsoup是一个用于处理真实HTML的Java库。它提供用于提取和操作数据的非常方便的API，使用最好的DOM

使用soup解析html就这么简单：

String html = "<table><tr><th>A header</th></tr><tr><td>Some text</td></tr><tr><td>More text</td></tr></table>";
Document doc = Jsoup.parse(html);

是的，我看过Jsoup，但正如我所提到的，它似乎是为了更改特定的标记，但我没有发现替换标记段的示例。以一个表为例，您可能不知道它包含多少行。或者也许没有什么好的例子？在我的示例中，您将如何使用Jsoup来实现结果？