Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/xpath/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
嵌套元素的Scrapy xpath_Xpath_Scrapy - Fatal编程技术网

嵌套元素的Scrapy xpath

嵌套元素的Scrapy xpath,xpath,scrapy,Xpath,Scrapy,我认为我使用Scrapy是错误的,但我尝试使用xpath仅从页面上的H2中选择文本,并去掉内部标记 例如 我尝试了许多组合,但似乎无法得到下面我想要的数组 ['Welcome to my page', 'Welcome to my Page'] 您可以加入每个h2的所有文本节点: In [1]: [''.join(h2.xpath(".//text()").extract()) for h2 in response.xpath("//h2")] Out[1]: [u'Welcome to my

我认为我使用Scrapy是错误的,但我尝试使用xpath仅从页面上的H2中选择文本,并去掉内部标记

例如

我尝试了许多组合,但似乎无法得到下面我想要的数组

['Welcome to my page',
'Welcome to my Page']
您可以加入每个
h2
的所有文本节点:

In [1]: [''.join(h2.xpath(".//text()").extract()) for h2 in response.xpath("//h2")]
Out[1]: [u'Welcome to my page', u'Welcome to my Page']
这个话题也很相关:


太棒了,刚刚试过,效果很好:)谢谢。用Scrapy做一些相对简单的事情似乎是相当复杂的。
['Welcome to my page',
'Welcome to my Page']
In [1]: [''.join(h2.xpath(".//text()").extract()) for h2 in response.xpath("//h2")]
Out[1]: [u'Welcome to my page', u'Welcome to my Page']