scrapy爬行蜘蛛：爬行策略/队列问题_Scrapy_Web Crawler

scrapy爬行蜘蛛：爬行策略/队列问题

scrapy web-crawler

scrapy爬行蜘蛛：爬行策略/队列问题,scrapy,web-crawler,Scrapy,Web Crawler,几天前，我开始使用scrapy，学习了如何删除特定的网站，例如dmoz.org；到目前为止还不错，我很喜欢。由于我想了解搜索引擎的发展，我的目标是为大量的任何颜色和内容的网站建立一个爬虫（以及存储、索引器等）到目前为止，我还尝试了深度一阶和bredth一阶爬行我现在只使用一个规则，我设置了一些要跳过的路径和一些域 Rule(SgmlLinkExtractor(deny=path_deny_base, deny_domains=deny_domains), callback='

几天前，我开始使用scrapy，学习了如何删除特定的网站，例如dmoz.org；到目前为止还不错，我很喜欢。由于我想了解搜索引擎的发展，我的目标是为大量的任何颜色和内容的网站建立一个爬虫（以及存储、索引器等）

到目前为止，我还尝试了深度一阶和bredth一阶爬行

我现在只使用一个规则，我设置了一些要跳过的路径和一些域

Rule(SgmlLinkExtractor(deny=path_deny_base, deny_domains=deny_domains),
        callback='save_page', follow=True),

我有一个管道，一个mysql存储来存储url、正文和下载页面的标题，通过

PageItem

和这些字段完成

我现在的问题是：

使用项目来简单存储页面是否合适

如果一个页面已经被爬网（在过去的六个月里，也就是说，它是以某种方式内置的），蜘蛛会检查数据库，这是如何工作的

是否有类似于无用域的黑名单，如占位符域、链接场等

还有很多其他的问题，比如存储，但我想我就到此为止，还有一个搜索引擎的一般问题

是否有办法从其他专业爬虫程序获取爬网结果数据，当然必须通过发送硬盘来完成，否则如果我自己爬网，数据量将是相同的（压缩放在一边）

使用项目来简单存储页面是否合适

如果一个页面已经被爬网（在过去的六个月里，也就是说，它是以某种方式内置的），蜘蛛会检查数据库，这是如何工作的