Java 从String-RSS中删除HTML_Java_Html_Regex_Parsing_Rss

Java 从String-RSS中删除HTML

java html regex parsing rss

Java 从String-RSS中删除HTML,java,html,regex,parsing,rss,Java,Html,Regex,Parsing,Rss,我目前正在构建一个RSS阅读器，一些网站有奇怪的RSS-2.0文件，我必须先修改这些文件才能显示它们其中之一是问题在于描述标记不仅包含描述文本，还包含一些 html元素，如如何在不查找每个属性的情况下删除所有这些不必要的信息有Java版本的吗？或者正则表达式在这种情况下有用吗？您可以使用此正则表达式删除HTML标记： String noHtml = html.replaceAll("\\<.*?>",""); String noHtml=html.replaceAll（“\

我目前正在构建一个RSS阅读器，一些网站有奇怪的RSS-2.0文件，我必须先修改这些文件才能显示它们

其中之一是

问题在于描述标记不仅包含描述文本，还包含一些

html元素，如

如何在不查找每个属性的情况下删除所有这些不必要的信息

有Java版本的吗？或者正则表达式在这种情况下有用吗？

您可以使用此正则表达式删除HTML标记：

String noHtml = html.replaceAll("\\<.*?>","");

String noHtml=html.replaceAll（“\\”，“”）；

尽管如此，我还是用Java解析HTML代码。

您可以使用这个正则表达式删除HTML标记：

String noHtml = html.replaceAll("\\<.*?>","");

String noHtml=html.replaceAll（“\\”，“”）；

尽管如此，我还是用Java解析HTML代码。

忽略CDATA中的所有内容，例如

<content:encoded><![CDATA[...

忽略CDATA中的所有内容，例如
<content:encoded><![CDATA[... 

忽略CDATA中的所有内容好吧，这很简单：D-如果创建响应，我会将其标记为已解决；）忽略CDATA中的所有内容好吧，这很简单：D-如果创建响应，我会将其标记为已解决；）第一个“\\”是什么意思<代码>
就我所知，它们本身并不特别，第一个“\\”是什么意思<代码>

据我所知，它们本身并不特别