Python 如何仅遍历站点的某些区域?基本上停留在某些页面内?

Python 如何仅遍历站点的某些区域?基本上停留在某些页面内?,python,beautifulsoup,scrapy,Python,Beautifulsoup,Scrapy,我正在使用scrapy/spyder构建我的爬虫程序,还使用BeautifulSoup。。我一直在开发一个爬虫程序,并且相信我们已经达到了一个临界点,它可以像我们所期望的那样使用我们所抓取的几个单独的页面,所以我的下一个挑战是抓取同一个站点,但只抓取特定于高级别类别的页面 我唯一尝试过的是使用allowed_domain和start_URL,但当我这么做时,它实际上会命中它找到的每一个页面,我们希望控制刮取的页面,这样我们就有了一个干净的信息列表 我知道在每个页面上都有一些链接,这些链接将你带到

我正在使用scrapy/spyder构建我的爬虫程序,还使用BeautifulSoup。。我一直在开发一个爬虫程序,并且相信我们已经达到了一个临界点,它可以像我们所期望的那样使用我们所抓取的几个单独的页面,所以我的下一个挑战是抓取同一个站点,但只抓取特定于高级别类别的页面

我唯一尝试过的是使用allowed_domain和start_URL,但当我这么做时,它实际上会命中它找到的每一个页面,我们希望控制刮取的页面,这样我们就有了一个干净的信息列表

我知道在每个页面上都有一些链接,这些链接将你带到你所在的页面之外,最终可能会出现在网站的其他地方。。但我想做的只是关注每个类别中的几页

#    allowed_domain = ['dickssportinggoods.com']
#    start_urls = ['https://www.dickssportinggoods.com/c/mens-top-trends-gear']

您可以将爬行器基于类并自己编写导航代码,也可以基于类并使用规则控制访问哪些页面。从您提供的信息来看,后一种方法似乎更适合您的需求。查看以了解规则是如何工作的