Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/283.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/xpath/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 无法使Scrapy/Xpath注意双精度_Python_Xpath_Scrapy - Fatal编程技术网

Python 无法使Scrapy/Xpath注意双精度

Python 无法使Scrapy/Xpath注意双精度,python,xpath,scrapy,Python,Xpath,Scrapy,我试着用scrapy来抓取一些诗,我有以下文字: Lorem ipsum dolor sit amet,<br> consectetuer adipiscing elit.<br> <br> Aenean commodo ligula eget dolor.<br> Aenean massa 如何使它不忽略额外的br?XPath查询强制Scrapy不返回标记 Scrapy忽略标记,因为是您让它这样做的。您可以使用XPath查询 //di

我试着用scrapy来抓取一些诗,我有以下文字:

Lorem ipsum dolor sit amet,<br>  
consectetuer adipiscing elit.<br> 
<br> 
Aenean commodo ligula eget dolor.<br> 
Aenean massa
如何使它不忽略额外的br?

XPath查询强制Scrapy不返回标记 Scrapy忽略标记,因为是您让它这样做的。您可以使用XPath查询

//div[@class="box"]/text()
选择//div[@class=box]的所有直接文本节点子节点,并仅选择这些子节点。在这些标记中,任何其他节点类型都将被忽略

将搜索扩展到标签 如果还希望返回令牌,请同时选择文本节点和令牌:

现在,循环所有结果。如果遇到文本节点,请返回其内容,对于标记,请返回换行符。

XPath查询强制Scrapy不返回标记 Scrapy忽略标记,因为是您让它这样做的。您可以使用XPath查询

//div[@class="box"]/text()
选择//div[@class=box]的所有直接文本节点子节点,并仅选择这些子节点。在这些标记中,任何其他节点类型都将被忽略

将搜索扩展到标签 如果还希望返回令牌,请同时选择文本节点和令牌:


现在,循环所有结果。如果您访问文本节点,请返回其内容,对于标记,请返回换行符。

关于:really response=response.replacebody=response.body.replace,“\n”工作正常,抱歉,不知何故我没有找到这个问题。response=response.replace body=re.subr\n,response.body的限制性较低,因为它匹配和标记了以下内容:really response=response.replacebody=response.body.replace,“\n”非常好用,抱歉,不知何故我没有找到这个问题。response=response.replace body=re.subr,\n,response.body的限制性较小,因为它与XPath匹配,标记从XPath的角度来看,这似乎是正确的解决方案,我想指出,使用scrapy,上述注释也可以工作。感谢您提供这样一个完整的答案。实际上,从XPath的角度来看,这似乎是正确的解决方案,我想指出的是,使用scrapy,上述注释也可以工作。谢谢你这么完整的回答。
(//div[@class="box"]/text() | //div[@class="box"]/br)