Java html搜索和替换保留html标记_Java_Html Parser

Java html搜索和替换保留html标记

java

Java html搜索和替换保留html标记,java,html-parser,Java,Html Parser,我正在寻找一个基于Java的html解析器，它可以搜索和替换保留文本的html标记。这个问题以前在这里被问过，但答案似乎没有达到目标。我下载并编写了一些简单的程序，看看它们是否能完成这项工作。这些工具包括jsoup、Jericho、JavaHTML解析器等。这些工具可以进行搜索，但当涉及到替换保留文本的HTML标记时，没有办法做到这一点我已经阅读了这些帖子的完整帖子：如果现在还没有这样的解析器，那么实现解析器的最佳方法是什么？如果您已经做过类似的事情，您可以共享代码吗？Jericho解析

我正在寻找一个基于Java的html解析器，它可以搜索和替换保留文本的html标记。这个问题以前在这里被问过，但答案似乎没有达到目标。我下载并编写了一些简单的程序，看看它们是否能完成这项工作。这些工具包括jsoup、Jericho、JavaHTML解析器等。这些工具可以进行搜索，但当涉及到替换保留文本的HTML标记时，没有办法做到这一点

我已经阅读了这些帖子的完整帖子：

如果现在还没有这样的解析器，那么实现解析器的最佳方法是什么？如果您已经做过类似的事情，您可以共享代码吗？

Jericho解析器可能会帮助您。已经存在很久了，可以处理格式错误的HTML。

Caja解析器使用libhtmlparser，这是一种HTML5解析器，能够很好地处理包含嵌入XML子树的标记，生成

org.w3c.dom.DocumentFragment

，并具有生成格式良好的HTML的呈现器

解析器代码位于

渲染器代码位于

谢谢，但jericho只能在开始标记和结束标记中替换。我们不需要任何html解析器，只需进行文本搜索和替换就可以做到这一点？这不是您找不到“正确”解析器的原因吗？我希望您是指akaihola的回答。步骤3有一个问题-它假设字符串位于位置1，2，如步骤所示：3中需要正则表达式。是#（\d+）；堆栈\s+#（\d+；溢出\b和替换#\1；堆栈%\2；你是否找到了一些解决方案，或者你是如何做到这一点的。请分享。