Java 从文本中删除HTML和XML
我有一系列的文本条目,我试图清除HTML和XML。我使用的是Java Apache Commons StringEscapeUtils,一般来说,如果在字符串s上使用,它们可以很好地处理问题,如:Java 从文本中删除HTML和XML,java,string,Java,String,我有一系列的文本条目,我试图清除HTML和XML。我使用的是Java Apache Commons StringEscapeUtils,一般来说,如果在字符串s上使用,它们可以很好地处理问题,如: s = unescapeHtml(s); s = unescapeXml(s); 但如果我有这样的东西: This is text. So is this. <img alt="" height="0" width="0" border="0"style="display:none"
s = unescapeHtml(s);
s = unescapeXml(s);
但如果我有这样的东西:
This is text. So is this. <img alt="" height="0" width="0" border="0"style="display:none"
src="http://segment-pixel.invitemedia.com/pixel?code=TechBiz
&partnerID=167&key=segment"/><img alt="" height="0" width="0" border="0" style="display:none" src="http://pixel.quantserve.com/pixel/p-8bUhLiluj0fAw.gif?labels=pub.28834.rss.TechBiz
.7020,cat.TechBiz.rss"/>
这是文本。这也是。
apacheutil没有任何效果
有人能推荐一种替代方法吗?您可以尝试使用:
这将剥离所有HTML 谢谢。我试试这个。JavaSwing还有一个javax.Swing.text.html.parser.*;这很有效。
String text = Jsoup.parse(html).text();