Parsing 标记中XPATH编码的HTML_Parsing_Xpath

Parsing 标记中XPATH编码的HTML

parsing xpath

Parsing 标记中XPATH编码的HTML,parsing,xpath,Parsing,Xpath,` 同侧阴唇 ` `   div class=“videoInStoryC”和#13; div id=“emp-19102206-25558”class=“emp” div class=“warning”img class=“holding”src=”http://bac.com/asfg.jpg“alt=”ipsim dlor“/ /律政司#13; /律政司#13;  p cl


同侧阴唇
`    `      
&#13;
&#13;
&#13;div class=“videoInStoryC”和#13;
div id=“emp-19102206-25558”class=“emp”&#13;
div class=“warning”img class=“holding”src=”http://bac.com/asfg.jpg“alt=”ipsim dlor“/&#13;
/律政司#13;  /律政司#13;
&#13;
p class=“caption”ipfi fks:“Lorem ipsum dolor sit amel”/p&#13;
/律政司#13;
&#13;

我有一个RSS提要，标签中带有编码的HTML。我想在编码的HTML的IMG标记中提取URL源。在本例中，URl为。我使用了img/@src，但没有成功，我认为是因为编码的Html。谢谢

您可以使用

<item>
<title>Lorem ipsum dolor sit ame</title> 
   `    `      
<description>
&amp;#13;
&amp;#13;
&amp;#13;&lt;div class=&quot;videoInStoryC&quot;&gt;&amp;#13;
&lt;div id=&quot;emp-19102206-25558&quot; class=&quot;emp&quot;&gt;&amp;#13;
&lt;div class=&quot;warning&quot;&gt;&lt;img class=&quot;holding&quot; src=&quot;http://bac.com/asfg.jpg&quot; alt=&quot;ipsim dlor&quot; /&gt;&amp;#13;
&lt;/div&gt;&amp;#13;  &lt;/div&gt;&amp;#13;
&amp;#13;
&lt;p class=&quot;caption&quot;&gt;ipfi fks: &quot;Lorem ipsum dolor sit amel&quot;&lt;/p&gt;&amp;#13;
&lt;/div&gt;&amp;#13;
&amp;#13;
</description>  
</item>

如果您有XPath 3.0解释器（但您没有）

你可以用像这样的东西

parse-xml(replace(/item/description, "&#13;", ""))//img/@src

如果您的解释器有一个类似于过滤器的函数，可以将正则表达式应用于字符串。（但事实并非如此）

你可以用

filter(/item/description, 'src="([^"]*)"', 1)

如果您有一个XPath 2.0解释器，并且文本中只有一个图像

 replace(replace(/item/description, '.*src="', '', 's'), '".*', '', 's')