Python 在scrapy中的多个爬行器之间共享访问过的URL?

Python 在scrapy中的多个爬行器之间共享访问过的URL?,python,scrapy,web-crawler,scrapyd,Python,Scrapy,Web Crawler,Scrapyd,我使用scrapyd在同一个域中运行多个spider作为作业。我假设scrapy有一个访问URL的哈希表,它在爬网时与其他爬行器共享和协调这些URL。当我通过创建同一个spider的实例时 curl http://localhost:6800/schedule.json -d project=projectname -d spider=spidername. 相反,它会对相同的URL进行爬网,并且会刮取重复的数据。以前有人处理过类似的问题吗 我的建议是尝试将站点划分为多个start\u URL

我使用scrapyd在同一个域中运行多个spider作为作业。我假设scrapy有一个访问URL的哈希表,它在爬网时与其他爬行器共享和协调这些URL。当我通过创建同一个spider的实例时

curl http://localhost:6800/schedule.json -d project=projectname -d spider=spidername.

相反,它会对相同的URL进行爬网,并且会刮取重复的数据。以前有人处理过类似的问题吗

我的建议是尝试将站点划分为多个
start\u URL
。然后

如果你想变得特别有趣,(或者如果你想抓取的页面经常改变),你可以创建一个爬行器来抓取网站地图,将链接分成
n
cunks,然后启动
n
其他爬行器来实际抓取网站