Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/java/326.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Java 杰里科纯文本如何分离文本_Java_Html - Fatal编程技术网

Java 杰里科纯文本如何分离文本

Java 杰里科纯文本如何分离文本,java,html,Java,Html,我尝试使用Jericho解析纯文本,代码如下: public static String getPlainText(String html) { Source htmlSource = new Source(html); Segment htmlSeg = new Segment(htmlSource, 0, html.length()); Renderer htmlRend = new Renderer(htmlSeg); // System.out.pr

我尝试使用Jericho解析纯文本,代码如下:

    public static String getPlainText(String html) {
    Source htmlSource = new Source(html);
    Segment htmlSeg = new Segment(htmlSource, 0, html.length());
    Renderer htmlRend = new Renderer(htmlSeg);
   // System.out.println(htmlRend.toString());
    return htmlRend.toString();
}
但是,对于以下html片段:

    Phone (808) 845-0000<br />
    Fax (808) 842-3616
    <a href="mailto:helpdesk@progressive-hi.com">
    helpdesk@progressive-hi.com</a>         
电话(808)845-0000
传真(808)842-3616
我得到了输出:

电话(808)845-0000传真(808)842-3616helpdesk@progressive-你好

现在我想要的是标签内的所有文本应该彼此分开,即传真和电子邮件应该彼此分开。有没有办法做到这一点

谢谢,问题解决了

Source source=new Source(new URL(sourceUrlString));
System.out.println(source.getTextExtractor().setIncludeAttributes(true).toString());

告诉我们您是如何解决的,并将您的答案标记为“正确答案”。这并不提供问题的答案。若要评论或要求作者澄清,请在其帖子下方留下评论-您可以随时在自己的帖子上发表评论,一旦您有足够的评论,您就可以发表评论。请不要添加“谢谢”作为回答。取而代之的是,投票选出你认为有用的答案。