Python XPath：访问非属性的内容_Python_Xml_Xpath

Python XPath：访问非属性的内容

python xml xpath

Python XPath：访问非属性的内容,python,xml,xpath,Python,Xml,Xpath,我尝试使用lxml和xpath命令从以下代码段访问时间（07.12.2012 00:36 Uhr）。不幸的是，所需的信息不是属性。我可以使用哪个xpath访问它我的片段： {'class': 'artikeldiskussion-titel'} <div class="artikeldiskussion-titel"><span id="posting-649631-titel"><b>So</b></span> <s

我尝试使用lxml和xpath命令从以下代码段访问时间（07.12.2012 00:36 Uhr）。不幸的是，所需的信息不是属性。我可以使用哪个xpath访问它

我的片段：

{'class': 'artikeldiskussion-titel'}
<div class="artikeldiskussion-titel"><span id="posting-649631-titel"><b>So</b></span>

    <span id="an_id" style="position: absolute; visibility: hidden; z-index: 999;"    class="hint_grau">

    </span> <span class="anz-postings-user" title="759 Kommentare">(759)</span> &#183;           07.12.2012 00:36 Uhr
</div>

{'class'：'artikeldiskussion-titel}
所以
(759) ·           2012年12月7日00:36 Uhr

使用

text（）

xpath函数：

txt = tree.xpath('//path/to/span/text()')

这是凌乱的html

在没有看到更多样本的情况下，我建议采用以下两种方法之一：

抓取div中的最后一个文本节点：

/genderant:：div[@class=“artikeldiskussion titel”]/child:：text（）[position（）=last（）]

在某个sentinel节点之后抓取文本节点：

/genderant:：span[@class=“anz postings user”]/following sibling:：text（）[1]

要回答这个问题，我们不仅需要知道HTML是什么样子，还需要知道它可能是什么样子——有多少变化是可能的？例如，所需文本的前面是否总是带有字符串值“（759）”的范围？