Java 杰里科纯文本如何分离文本
我尝试使用Jericho解析纯文本,代码如下:Java 杰里科纯文本如何分离文本,java,html,Java,Html,我尝试使用Jericho解析纯文本,代码如下: public static String getPlainText(String html) { Source htmlSource = new Source(html); Segment htmlSeg = new Segment(htmlSource, 0, html.length()); Renderer htmlRend = new Renderer(htmlSeg); // System.out.pr
public static String getPlainText(String html) {
Source htmlSource = new Source(html);
Segment htmlSeg = new Segment(htmlSource, 0, html.length());
Renderer htmlRend = new Renderer(htmlSeg);
// System.out.println(htmlRend.toString());
return htmlRend.toString();
}
但是,对于以下html片段:
Phone (808) 845-0000<br />
Fax (808) 842-3616
<a href="mailto:helpdesk@progressive-hi.com">
helpdesk@progressive-hi.com</a>
电话(808)845-0000
传真(808)842-3616
我得到了输出:
电话(808)845-0000传真(808)842-3616helpdesk@progressive-你好
现在我想要的是标签内的所有文本应该彼此分开,即传真和电子邮件应该彼此分开。有没有办法做到这一点
谢谢,问题解决了
Source source=new Source(new URL(sourceUrlString));
System.out.println(source.getTextExtractor().setIncludeAttributes(true).toString());
告诉我们您是如何解决的,并将您的答案标记为“正确答案”。这并不提供问题的答案。若要评论或要求作者澄清,请在其帖子下方留下评论-您可以随时在自己的帖子上发表评论,一旦您有足够的评论,您就可以发表评论。请不要添加“谢谢”作为回答。取而代之的是,投票选出你认为有用的答案。