Web scraping 如何仅从特定类别抓取带有scrapy的链接，而忽略产品页面上的链接？_Web Scraping_Scrapy_Scrapy Spider

Web scraping 如何仅从特定类别抓取带有scrapy的链接，而忽略产品页面上的链接？

web-scraping scrapy

Web scraping 如何仅从特定类别抓取带有scrapy的链接，而忽略产品页面上的链接？,web-scraping,scrapy,scrapy-spider,Web Scraping,Scrapy,Scrapy Spider,我想从一个类别中抓取产品，但我不希望蜘蛛跟随产品页面上的链接（相关产品来自同一品牌，但类型不同-例如，我想要的产品是香水，它作为相关产品有口红）类别的url为site.com/category\u name/，产品url为site.com/brand\u name/product name here/。我应该如何定义爬网规则？您可以使用规则来定义此类行为 Rule(LinkExtractor(allow=('.*site.com/category_pattern.*',)), callback

我想从一个类别中抓取产品，但我不希望蜘蛛跟随产品页面上的链接（相关产品来自同一品牌，但类型不同-例如，我想要的产品是香水，它作为相关产品有口红）

类别的url为

site.com/category\u name/

，产品url为

site.com/brand\u name/product name here/

。我应该如何定义爬网规则？

您可以使用规则来定义此类行为

Rule(LinkExtractor(allow=('.*site.com/category_pattern.*',)),
callback='your_callback', follow=False)

这将使用您的回调爬网类别页面，它将跟随产品页面的链接，而从那里什么也没有。您只需要一些模式来识别url的类别部分。

那么您是否自己尝试过解决这个问题并遇到了问题？你能展示一些代码吗？我只是从scrapy开始，对python没有任何经验，我正忙着开始工作。我发布这个问题主要是想知道我应该走哪条路，因为我没有太多时间让它发挥作用。我确信这是我想做的最基本的事情，但我需要一些指导来开始