Python 无法使Scrapy/Xpath注意双精度_Python_Xpath_Scrapy

Python 无法使Scrapy/Xpath注意双精度

python xpath scrapy

Python 无法使Scrapy/Xpath注意双精度,python,xpath,scrapy,Python,Xpath,Scrapy,我试着用scrapy来抓取一些诗，我有以下文字： Lorem ipsum dolor sit amet,<br> consectetuer adipiscing elit.<br> <br> Aenean commodo ligula eget dolor.<br> Aenean massa 如何使它不忽略额外的br？XPath查询强制Scrapy不返回标记 Scrapy忽略标记，因为是您让它这样做的。您可以使用XPath查询 //di

我试着用scrapy来抓取一些诗，我有以下文字：

Lorem ipsum dolor sit amet,<br>  
consectetuer adipiscing elit.<br> 
<br> 
Aenean commodo ligula eget dolor.<br> 
Aenean massa

如何使它不忽略额外的br？

XPath查询强制Scrapy不返回标记 Scrapy忽略标记，因为是您让它这样做的。您可以使用XPath查询

//div[@class="box"]/text()

选择//div[@class=box]的所有直接文本节点子节点，并仅选择这些子节点。在这些标记中，任何其他节点类型都将被忽略

将搜索扩展到标签如果还希望返回令牌，请同时选择文本节点和令牌：

现在，循环所有结果。如果遇到文本节点，请返回其内容，对于标记，请返回换行符。

XPath查询强制Scrapy不返回标记 Scrapy忽略标记，因为是您让它这样做的。您可以使用XPath查询

//div[@class="box"]/text()

选择//div[@class=box]的所有直接文本节点子节点，并仅选择这些子节点。在这些标记中，任何其他节点类型都将被忽略

将搜索扩展到标签如果还希望返回令牌，请同时选择文本节点和令牌：

现在，循环所有结果。如果您访问文本节点，请返回其内容，对于标记，请返回换行符。

关于：really response=response.replacebody=response.body.replace，“\n”工作正常，抱歉，不知何故我没有找到这个问题。response=response.replace body=re.subr\n，response.body的限制性较低，因为它匹配和标记了以下内容：really response=response.replacebody=response.body.replace，“\n”非常好用，抱歉，不知何故我没有找到这个问题。response=response.replace body=re.subr，\n，response.body的限制性较小，因为它与XPath匹配，标记从XPath的角度来看，这似乎是正确的解决方案，我想指出，使用scrapy，上述注释也可以工作。感谢您提供这样一个完整的答案。实际上，从XPath的角度来看，这似乎是正确的解决方案，我想指出的是，使用scrapy，上述注释也可以工作。谢谢你这么完整的回答。

(//div[@class="box"]/text() | //div[@class="box"]/br)