Java html搜索和替换保留html标记

Java html搜索和替换保留html标记,java,html-parser,Java,Html Parser,我正在寻找一个基于Java的html解析器,它可以搜索和替换保留文本的html标记。这个问题以前在这里被问过,但答案似乎没有达到目标。我下载并编写了一些简单的程序,看看它们是否能完成这项工作。这些工具包括jsoup、Jericho、JavaHTML解析器等。这些工具可以进行搜索,但当涉及到替换保留文本的HTML标记时,没有办法做到这一点 我已经阅读了这些帖子的完整帖子: 如果现在还没有这样的解析器,那么实现解析器的最佳方法是什么?如果您已经做过类似的事情,您可以共享代码吗?Jericho解析

我正在寻找一个基于Java的html解析器,它可以搜索和替换保留文本的html标记。这个问题以前在这里被问过,但答案似乎没有达到目标。我下载并编写了一些简单的程序,看看它们是否能完成这项工作。这些工具包括jsoup、Jericho、JavaHTML解析器等。这些工具可以进行搜索,但当涉及到替换保留文本的HTML标记时,没有办法做到这一点

我已经阅读了这些帖子的完整帖子:


如果现在还没有这样的解析器,那么实现解析器的最佳方法是什么?如果您已经做过类似的事情,您可以共享代码吗?

Jericho解析器可能会帮助您。已经存在很久了,可以处理格式错误的HTML。

Caja解析器使用libhtmlparser,这是一种HTML5解析器,能够很好地处理包含嵌入XML子树的标记,生成
org.w3c.dom.DocumentFragment
,并具有生成格式良好的HTML的呈现器

解析器代码位于


渲染器代码位于

谢谢,但jericho只能在开始标记和结束标记中替换。我们不需要任何html解析器,只需进行文本搜索和替换就可以做到这一点?这不是您找不到“正确”解析器的原因吗?我希望您是指akaihola的回答。步骤3有一个问题-它假设字符串位于位置1,2,如步骤所示:3中需要正则表达式。是#(\d+);堆栈\s+#(\d+;溢出\b和替换#\1;堆栈%\2;你是否找到了一些解决方案,或者你是如何做到这一点的。请分享。