Python 如何仅遍历站点的某些区域？基本上停留在某些页面内？_Python_Beautifulsoup_Scrapy

Python 如何仅遍历站点的某些区域？基本上停留在某些页面内？

python scrapy

Python 如何仅遍历站点的某些区域？基本上停留在某些页面内？,python,beautifulsoup,scrapy,Python,Beautifulsoup,Scrapy,我正在使用scrapy/spyder构建我的爬虫程序，还使用BeautifulSoup。。我一直在开发一个爬虫程序，并且相信我们已经达到了一个临界点，它可以像我们所期望的那样使用我们所抓取的几个单独的页面，所以我的下一个挑战是抓取同一个站点，但只抓取特定于高级别类别的页面我唯一尝试过的是使用allowed_domain和start_URL，但当我这么做时，它实际上会命中它找到的每一个页面，我们希望控制刮取的页面，这样我们就有了一个干净的信息列表我知道在每个页面上都有一些链接，这些链接将你带到

我正在使用scrapy/spyder构建我的爬虫程序，还使用BeautifulSoup。。我一直在开发一个爬虫程序，并且相信我们已经达到了一个临界点，它可以像我们所期望的那样使用我们所抓取的几个单独的页面，所以我的下一个挑战是抓取同一个站点，但只抓取特定于高级别类别的页面

我唯一尝试过的是使用allowed_domain和start_URL，但当我这么做时，它实际上会命中它找到的每一个页面，我们希望控制刮取的页面，这样我们就有了一个干净的信息列表

我知道在每个页面上都有一些链接，这些链接将你带到你所在的页面之外，最终可能会出现在网站的其他地方。。但我想做的只是关注每个类别中的几页

#    allowed_domain = ['dickssportinggoods.com']
#    start_urls = ['https://www.dickssportinggoods.com/c/mens-top-trends-gear']

您可以将爬行器基于类并自己编写导航代码，也可以基于类并使用规则控制访问哪些页面。从您提供的信息来看，后一种方法似乎更适合您的需求。查看以了解规则是如何工作的