Java(Android)正则表达式去除HTML段落
我有一个Android应用程序,它从外部XML源获取一些数据。我已经从其中一个XML元素中剥离了一些HTML,但其格式如下:Java(Android)正则表达式去除HTML段落,java,html,android,regex,Java,Html,Android,Regex,我有一个Android应用程序,它从外部XML源获取一些数据。我已经从其中一个XML元素中剥离了一些HTML,但其格式如下: <p class="x">Some text...</p> <p>Some more text</p> <p>Some final text</p> 一些文本 更多的文字 一些定稿 我想提取中间段落的文本,我如何才能做到这一点?正则表达式是最好的方法吗?我真的不想开始包括外部HTML解析库。如果很
<p class="x">Some text...</p>
<p>Some more text</p>
<p>Some final text</p>
一些文本
更多的文字
一些定稿
我想提取中间段落的文本,我如何才能做到这一点?正则表达式是最好的方法吗?我真的不想开始包括外部HTML解析库。如果很简单,只需执行正则表达式即可 如果您从自己的外部源获取XML,我会在那里解析它。 因此,我将问一个问题,这个问题将链接到答案:您是否尝试过使用XML解析器来代替
你也可以从其他答案中得到一些想法,但我会尽量避免使用正则表达式。正如Macarse所建议的,如果可以的话,请在服务器上清理这些内容。如果没有,请将这三个
元素包装在一个根元素中,并使用SAX或其他方法对其进行解析,注意第二段元素。只需进行拆分:http://developer.android.com/reference/java/lang/String.html#split(java.lang.String)
在“”
上,在返回的数组中获取第二个条目实际上可以非常快速地完成这项工作如果要解析从网站下载的XML文件,则与Android无关。正则表达式可能类似:*?>(*)