Python 无法使Scrapy/Xpath注意双精度
我试着用scrapy来抓取一些诗,我有以下文字:Python 无法使Scrapy/Xpath注意双精度,python,xpath,scrapy,Python,Xpath,Scrapy,我试着用scrapy来抓取一些诗,我有以下文字: Lorem ipsum dolor sit amet,<br> consectetuer adipiscing elit.<br> <br> Aenean commodo ligula eget dolor.<br> Aenean massa 如何使它不忽略额外的br?XPath查询强制Scrapy不返回标记 Scrapy忽略标记,因为是您让它这样做的。您可以使用XPath查询 //di
Lorem ipsum dolor sit amet,<br>
consectetuer adipiscing elit.<br>
<br>
Aenean commodo ligula eget dolor.<br>
Aenean massa
如何使它不忽略额外的br?XPath查询强制Scrapy不返回标记
Scrapy忽略标记,因为是您让它这样做的。您可以使用XPath查询
//div[@class="box"]/text()
选择//div[@class=box]的所有直接文本节点子节点,并仅选择这些子节点。在这些标记中,任何其他节点类型都将被忽略
将搜索扩展到标签
如果还希望返回令牌,请同时选择文本节点和令牌:
现在,循环所有结果。如果遇到文本节点,请返回其内容,对于标记,请返回换行符。XPath查询强制Scrapy不返回标记
Scrapy忽略标记,因为是您让它这样做的。您可以使用XPath查询
//div[@class="box"]/text()
选择//div[@class=box]的所有直接文本节点子节点,并仅选择这些子节点。在这些标记中,任何其他节点类型都将被忽略
将搜索扩展到标签
如果还希望返回令牌,请同时选择文本节点和令牌:
现在,循环所有结果。如果您访问文本节点,请返回其内容,对于标记,请返回换行符。关于:really response=response.replacebody=response.body.replace,“\n”工作正常,抱歉,不知何故我没有找到这个问题。response=response.replace body=re.subr\n,response.body的限制性较低,因为它匹配和标记了以下内容:really response=response.replacebody=response.body.replace,“\n”非常好用,抱歉,不知何故我没有找到这个问题。response=response.replace body=re.subr,\n,response.body的限制性较小,因为它与XPath匹配,标记从XPath的角度来看,这似乎是正确的解决方案,我想指出,使用scrapy,上述注释也可以工作。感谢您提供这样一个完整的答案。实际上,从XPath的角度来看,这似乎是正确的解决方案,我想指出的是,使用scrapy,上述注释也可以工作。谢谢你这么完整的回答。
(//div[@class="box"]/text() | //div[@class="box"]/br)