Python 在scrapy中的多个爬行器之间共享访问过的URL？_Python_Scrapy_Web Crawler_Scrapyd

Python 在scrapy中的多个爬行器之间共享访问过的URL？

python scrapy web-crawler

Python 在scrapy中的多个爬行器之间共享访问过的URL？,python,scrapy,web-crawler,scrapyd,Python,Scrapy,Web Crawler,Scrapyd,我使用scrapyd在同一个域中运行多个spider作为作业。我假设scrapy有一个访问URL的哈希表，它在爬网时与其他爬行器共享和协调这些URL。当我通过创建同一个spider的实例时 curl http://localhost:6800/schedule.json -d project=projectname -d spider=spidername. 相反，它会对相同的URL进行爬网，并且会刮取重复的数据。以前有人处理过类似的问题吗我的建议是尝试将站点划分为多个start\u URL

我使用scrapyd在同一个域中运行多个spider作为作业。我假设scrapy有一个访问URL的哈希表，它在爬网时与其他爬行器共享和协调这些URL。当我通过创建同一个spider的实例时

curl http://localhost:6800/schedule.json -d project=projectname -d spider=spidername.

相反，它会对相同的URL进行爬网，并且会刮取重复的数据。以前有人处理过类似的问题吗

我的建议是尝试将站点划分为多个

start\u URL

。然后

如果你想变得特别有趣，（或者如果你想抓取的页面经常改变），你可以创建一个爬行器来抓取网站地图，将链接分成

cunks，然后启动

其他爬行器来实际抓取网站