Scrapy 如何排除xpath的某些路径而不被刮伤?

Scrapy 如何排除xpath的某些路径而不被刮伤?,scrapy,Scrapy,我试图刮取必要的数据,但当我试图排除不需要的部分时,我无法做到这一点。请帮忙刮取必要的数据 案例1: <div class="abc xyz"> <div class="aaaaaa bbbbbb"> "I dont want to include this" </div> ***"I just want to scrape this

我试图刮取必要的数据,但当我试图排除不需要的部分时,我无法做到这一点。请帮忙刮取必要的数据

案例1:

<div class="abc xyz">
      <div class="aaaaaa bbbbbb">
           "I dont want to include this"
      </div>
      ***"I just want to scrape this"***
</div>

“我不想包括这个”
***“我只想擦掉这个”***
案例2:

<div class="abc xyz">
      <div class="aaaaaa bbbbbb">
      </div>
      ***"I just want to scrape this"***
</div>

***“我只想擦掉这个”***
在这两种情况下,我试图得到的结果都是“我只想刮这个”


已尝试使用“//div[contains(@class,“abc”)]//text()进行刮取-但在第一种情况下,它给出的输出是“我不想包含此内容,我只想刮取此内容”,在第二种情况下,预期的输出被刮取。

此内容将产生一些垃圾,但它可以完成以下工作:

result = response.xpath('//div[@class="abc xyz"]/text()').extract()
result = "".join(result)

这一个将产生一些垃圾,但它将完成以下工作:

result = response.xpath('//div[@class="abc xyz"]/text()').extract()
result = "".join(result)

我不想包含内部div元素的内容。它不包含它,因为第一个案例的结果是“\n\n***”,我只想废弃这个“***\n”。但是,正如我所说,它包含了一些多余的新行和空格。当我尝试这个时,输出是[u'n',u'I不想包含这个',u'I只想废弃这个'],只需重新运行它,并收到与第一次相同的结果。您确定复制正确吗?scrape not scrape我不想包含内部div元素的内容。它不包含它,因为第一个案例的结果是“\n\n***”,我只想将此“***\n”作废。但是,正如我所说,它包含了一些多余的新行和空格。当我尝试这个时,输出是[u'n',u'I不想包含这个',u'I只想废弃这个'],只需重新运行它,并收到与第一次相同的结果。你确定你复制的正确吗?刮而不是报废