Java Jericho html:是否可以根据源文件中的位置提取文本?

Java Jericho html:是否可以根据源文件中的位置提取文本?,java,html,parsing,jericho-html-parser,Java,Html,Parsing,Jericho Html Parser,我使用3.1 我需要从html中提取文本,处理它,并根据这一点,我需要在原始html中插入标记 但为此,我需要在提取的文本和源html之间进行匹配 net.htmlparser.jericho.TextExtractor提取文本非常好,但我无法找到如何在原始文件中找到位置 Jericho html有可能做到这一点吗?您不能像现在这样使用TextExtractor,但我过去也需要做类似的事情,最简单的解决方案是复制Jericho的实现并编辑它以添加您自己的自定义行为。这是一个非常简单的类,因此您可

我使用3.1

我需要从html中提取文本,处理它,并根据这一点,我需要在原始html中插入标记

但为此,我需要在提取的文本和源html之间进行匹配

net.htmlparser.jericho.TextExtractor
提取文本非常好,但我无法找到如何在原始文件中找到位置


Jericho html有可能做到这一点吗?

您不能像现在这样使用TextExtractor,但我过去也需要做类似的事情,最简单的解决方案是复制Jericho的实现并编辑它以添加您自己的自定义行为。这是一个非常简单的类,因此您可以很容易地看到在何处添加自己的挂钩。

谢谢,我们将尝试!你知道其他库允许这样做吗?还有Jericho的渲染器,但同样,你必须自己修改它,但文本格式要好得多(包括项目符号、间距、链接等…有点像Lynx浏览器的html渲染)。至于其他库,没有,但是如果您只想在适当的位置使用换行符进行简单的文本格式设置,您可以使用dom解析器自己编写一个基本的实现—尽管修改TextExtractor/Renderer来完成您想要的任务会更快,利用Jericho对格式糟糕的HTML的处理,您将获得额外的好处。