Python xpath string()从呈现中排除特定节点

Python xpath string()从呈现中排除特定节点,python,dom,xpath,scrapy,Python,Dom,Xpath,Scrapy,我使用scrapy和xpath尝试在DOM中查找特定节点,并尝试将该部分呈现为字符串。这是该部分的外观: 描述:SCP-3976是一个集体名称 罗马警务人员阿加莎·克里斯蒂公寓酒店。Àce jour,吹捧实例 de SCP-3976英国农村地区和其他地区的地理位置 在50米长的人造丝上,有一条长裙。再加上,兜售他们的产品 海勒地区22h31和08h36中心公寓,比恩区奥村登记处 不存在的实例 使用以下代码 response.xpathstring//p.get 我明白了 Description

我使用scrapy和xpath尝试在DOM中查找特定节点,并尝试将该部分呈现为字符串。这是该部分的外观:

描述:SCP-3976是一个集体名称 罗马警务人员阿加莎·克里斯蒂公寓酒店。Àce jour,吹捧实例 de SCP-3976英国农村地区和其他地区的地理位置 在50米长的人造丝上,有一条长裙。再加上,兜售他们的产品 海勒地区22h31和08h36中心公寓,比恩区奥村登记处 不存在的实例

使用以下代码

response.xpathstring//p.get 我明白了

Description : SCP-3976 est l'appellation collective d'une série de manifestations sous la forme de
 meurtres apparents de la célèbre autrice de romans policiers Agatha Christie1. À ce jour, toutes les 
instances de SCP-3976 ont été localisées dans les zones rurales du territoire anglais et tous les 
composants de chaque instances se trouvaient dans un rayon de 50\xa0mètres. De plus, toutes les instances 
sont apparues entre 22h31 et 08h36, heure locale, bien qu'aucun enregistrement ni témoin de la 
manifestation d'une instance n'existent.
这是一个很好的结果。只是,您可以看到Agatha Christie旁边是元素的1,我希望通过xpath防止它出现。我可以这样做吗


谢谢,

您可以使用几个w3lib.html函数删除\u标记,删除带有\u内容的\u标记,从结果中排除特定标记


参见示例。

您可以使用两个w3lib.html函数删除\u标记,删除带有\u内容的\u标记,从结果中排除特定标记

参见示例。

尝试:

response.xpath('//p/text()').extract()
您需要从新行等中剥离输出,以使其形成正确的形状,但它将排除1。

尝试:

response.xpath('//p/text()').extract()

您需要从新行等中剥离输出,以使其形成正确的形状,但它将排除1。

谢谢!这正是我要找的!谢谢这正是我要找的!在修订之后,我需要的就是这个解决方案,我后来在一次测试中看到,我必须保留一些标签,比如span。感谢在修订之后,我需要的就是这个解决方案,我后来在一次测试中看到,我必须保留一些标签,比如span。感谢