嵌套元素的Scrapy xpath
我认为我使用Scrapy是错误的,但我尝试使用xpath仅从页面上的H2中选择文本,并去掉内部标记 例如 我尝试了许多组合,但似乎无法得到下面我想要的数组嵌套元素的Scrapy xpath,xpath,scrapy,Xpath,Scrapy,我认为我使用Scrapy是错误的,但我尝试使用xpath仅从页面上的H2中选择文本,并去掉内部标记 例如 我尝试了许多组合,但似乎无法得到下面我想要的数组 ['Welcome to my page', 'Welcome to my Page'] 您可以加入每个h2的所有文本节点: In [1]: [''.join(h2.xpath(".//text()").extract()) for h2 in response.xpath("//h2")] Out[1]: [u'Welcome to my
['Welcome to my page',
'Welcome to my Page']
您可以加入每个h2
的所有文本节点:
In [1]: [''.join(h2.xpath(".//text()").extract()) for h2 in response.xpath("//h2")]
Out[1]: [u'Welcome to my page', u'Welcome to my Page']
这个话题也很相关:
['Welcome to my page',
'Welcome to my Page']
In [1]: [''.join(h2.xpath(".//text()").extract()) for h2 in response.xpath("//h2")]
Out[1]: [u'Welcome to my page', u'Welcome to my Page']