Parsing 标记中XPATH编码的HTML
`Parsing 标记中XPATH编码的HTML,parsing,xpath,Parsing,Xpath,` 同侧阴唇 ` ` 
 
 
div class=“videoInStoryC”和#13; div id=“emp-19102206-25558”class=“emp”
 div class=“warning”img class=“holding”src=”http://bac.com/asfg.jpg“alt=”ipsim dlor“/
 /律政司#13; /律政司#13; 
 p cl
同侧阴唇
` `



div class=“videoInStoryC”和#13;
div id=“emp-19102206-25558”class=“emp”
div class=“warning”img class=“holding”src=”http://bac.com/asfg.jpg“alt=”ipsim dlor“/
/律政司#13; /律政司#13;

p class=“caption”ipfi fks:“Lorem ipsum dolor sit amel”/p
/律政司#13;

`
我有一个RSS提要,标签中带有编码的HTML。我想在编码的HTML的IMG标记中提取URL源。
在本例中,URl为。
我使用了img/@src,但没有成功,我认为是因为编码的Html。
谢谢您可以使用
<item>
<title>Lorem ipsum dolor sit ame</title>
` `
<description>
&#13;
&#13;
&#13;<div class="videoInStoryC">&#13;
<div id="emp-19102206-25558" class="emp">&#13;
<div class="warning"><img class="holding" src="http://bac.com/asfg.jpg" alt="ipsim dlor" />&#13;
</div>&#13; </div>&#13;
&#13;
<p class="caption">ipfi fks: "Lorem ipsum dolor sit amel"</p>&#13;
</div>&#13;
&#13;
</description>
</item>
如果您有XPath 3.0解释器(但您没有)
你可以用像这样的东西
parse-xml(replace(/item/description, " ", ""))//img/@src
如果您的解释器有一个类似于过滤器的函数,可以将正则表达式应用于字符串。(但事实并非如此)
你可以用
filter(/item/description, 'src="([^"]*)"', 1)
如果您有一个XPath 2.0解释器,并且文本中只有一个图像
replace(replace(/item/description, '.*src="', '', 's'), '".*', '', 's')