嵌套元素的Scrapy xpath_Xpath_Scrapy

嵌套元素的Scrapy xpath

xpath scrapy

嵌套元素的Scrapy xpath,xpath,scrapy,Xpath,Scrapy,我认为我使用Scrapy是错误的，但我尝试使用xpath仅从页面上的H2中选择文本，并去掉内部标记例如我尝试了许多组合，但似乎无法得到下面我想要的数组 ['Welcome to my page', 'Welcome to my Page'] 您可以加入每个h2的所有文本节点： In [1]: [''.join(h2.xpath(".//text()").extract()) for h2 in response.xpath("//h2")] Out[1]: [u'Welcome to my

我认为我使用Scrapy是错误的，但我尝试使用xpath仅从页面上的H2中选择文本，并去掉内部标记

例如

我尝试了许多组合，但似乎无法得到下面我想要的数组

['Welcome to my page',
'Welcome to my Page']

您可以加入每个

h2

的所有文本节点：

In [1]: [''.join(h2.xpath(".//text()").extract()) for h2 in response.xpath("//h2")]
Out[1]: [u'Welcome to my page', u'Welcome to my Page']

这个话题也很相关：

太棒了，刚刚试过，效果很好：）谢谢。用Scrapy做一些相对简单的事情似乎是相当复杂的。

['Welcome to my page',
'Welcome to my Page']

In [1]: [''.join(h2.xpath(".//text()").extract()) for h2 in response.xpath("//h2")]
Out[1]: [u'Welcome to my page', u'Welcome to my Page']