Python XPath:访问非属性的内容
我尝试使用lxml和xpath命令从以下代码段访问时间(07.12.2012 00:36 Uhr)。不幸的是,所需的信息不是属性。我可以使用哪个xpath访问它 我的片段:Python XPath:访问非属性的内容,python,xml,xpath,Python,Xml,Xpath,我尝试使用lxml和xpath命令从以下代码段访问时间(07.12.2012 00:36 Uhr)。不幸的是,所需的信息不是属性。我可以使用哪个xpath访问它 我的片段: {'class': 'artikeldiskussion-titel'} <div class="artikeldiskussion-titel"><span id="posting-649631-titel"><b>So</b></span> <s
{'class': 'artikeldiskussion-titel'}
<div class="artikeldiskussion-titel"><span id="posting-649631-titel"><b>So</b></span>
<span id="an_id" style="position: absolute; visibility: hidden; z-index: 999;" class="hint_grau">
</span> <span class="anz-postings-user" title="759 Kommentare">(759)</span> · 07.12.2012 00:36 Uhr
</div>
{'class':'artikeldiskussion-titel}
所以
(759) · 2012年12月7日00:36 Uhr
使用text()
xpath函数:
txt = tree.xpath('//path/to/span/text()')
这是凌乱的html
在没有看到更多样本的情况下,我建议采用以下两种方法之一:
/genderant::div[@class=“artikeldiskussion titel”]/child::text()[position()=last()]
/genderant::span[@class=“anz postings user”]/following sibling::text()[1]
要回答这个问题,我们不仅需要知道HTML是什么样子,还需要知道它可能是什么样子——有多少变化是可能的?例如,所需文本的前面是否总是带有字符串值“(759)”的范围?