Java 从String-RSS中删除HTML

Java 从String-RSS中删除HTML,java,html,regex,parsing,rss,Java,Html,Regex,Parsing,Rss,我目前正在构建一个RSS阅读器,一些网站有奇怪的RSS-2.0文件,我必须先修改这些文件才能显示它们 其中之一是 问题在于描述标记不仅包含描述文本,还包含一些 html元素,如 如何在不查找每个属性的情况下删除所有这些不必要的信息 有Java版本的吗?或者正则表达式在这种情况下有用吗?您可以使用此正则表达式删除HTML标记: String noHtml = html.replaceAll("\\<.*?>",""); String noHtml=html.replaceAll(“\

我目前正在构建一个RSS阅读器,一些网站有奇怪的RSS-2.0文件,我必须先修改这些文件才能显示它们

其中之一是

问题在于描述标记不仅包含描述文本,还包含一些

html元素,如

如何在不查找每个属性的情况下删除所有这些不必要的信息


有Java版本的吗?或者正则表达式在这种情况下有用吗?

您可以使用此正则表达式删除HTML标记:

String noHtml = html.replaceAll("\\<.*?>","");
String noHtml=html.replaceAll(“\\”,“”);

尽管如此,我还是用Java解析HTML代码。

您可以使用这个正则表达式删除HTML标记:

String noHtml = html.replaceAll("\\<.*?>","");
String noHtml=html.replaceAll(“\\”,“”);

尽管如此,我还是用Java解析HTML代码。

忽略CDATA中的所有内容,例如

<content:encoded><![CDATA[... 

忽略CDATA中的所有内容,例如

<content:encoded><![CDATA[... 

忽略CDATA中的所有内容好吧,这很简单:D-如果创建响应,我会将其标记为已解决;)忽略CDATA中的所有内容好吧,这很简单:D-如果创建响应,我会将其标记为已解决;)第一个“\\”是什么意思<代码>
就我所知,它们本身并不特别,第一个“\\”是什么意思<代码>
据我所知,它们本身并不特别