Web scraping 如何仅从特定类别抓取带有scrapy的链接,而忽略产品页面上的链接?

Web scraping 如何仅从特定类别抓取带有scrapy的链接,而忽略产品页面上的链接?,web-scraping,scrapy,scrapy-spider,Web Scraping,Scrapy,Scrapy Spider,我想从一个类别中抓取产品,但我不希望蜘蛛跟随产品页面上的链接(相关产品来自同一品牌,但类型不同-例如,我想要的产品是香水,它作为相关产品有口红) 类别的url为site.com/category\u name/,产品url为site.com/brand\u name/product name here/。我应该如何定义爬网规则?您可以使用规则来定义此类行为 Rule(LinkExtractor(allow=('.*site.com/category_pattern.*',)), callback

我想从一个类别中抓取产品,但我不希望蜘蛛跟随产品页面上的链接(相关产品来自同一品牌,但类型不同-例如,我想要的产品是香水,它作为相关产品有口红)


类别的url为
site.com/category\u name/
,产品url为
site.com/brand\u name/product name here/
。我应该如何定义爬网规则?

您可以使用规则来定义此类行为

Rule(LinkExtractor(allow=('.*site.com/category_pattern.*',)),
callback='your_callback', follow=False)

这将使用您的回调爬网类别页面,它将跟随产品页面的链接,而从那里什么也没有。您只需要一些模式来识别url的类别部分。

那么您是否自己尝试过解决这个问题并遇到了问题?你能展示一些代码吗?我只是从scrapy开始,对python没有任何经验,我正忙着开始工作。我发布这个问题主要是想知道我应该走哪条路,因为我没有太多时间让它发挥作用。我确信这是我想做的最基本的事情,但我需要一些指导来开始