Python Scrapy:是否可以使用url扩展来抓取不同的网站?
我有一个名为Python Scrapy:是否可以使用url扩展来抓取不同的网站?,python,scrapy,Python,Scrapy,我有一个名为www.example.edu 首先,我想开始在0深度与类似的扩展抓取网站 第二,我想阻止蜘蛛爬行,例如,当它已经爬行了20多个网站时 这两个限制是否可能实现 假设我有以下代码: class MySpider(scrapy.Spider): name = 'spiderz' allowed_domains = ['berkeley.edu'] start_urls = ['http://www.berkeley.edu/',] 我想知道是否可以在start\
www.example.edu
首先,我想开始在0深度与类似的扩展抓取网站
第二,我想阻止蜘蛛爬行,例如,当它已经爬行了20多个网站时
这两个限制是否可能实现
假设我有以下代码:
class MySpider(scrapy.Spider):
name = 'spiderz'
allowed_domains = ['berkeley.edu']
start_urls = ['http://www.berkeley.edu/',]
我想知道是否可以在start\u url
之后爬行,这是一个具有相同扩展名的随机域,例如phoenix.edu,然后是columbia.edu,仅使用.edu作为规则模式
我只对域名感兴趣
我想收集20个扩展名为.edu的随机域名
您能提供一个具体的例子和一些到目前为止的代码吗?这可能会帮助我们有一个清晰的画面,并更好地帮助。谢谢。你能提供一个具体的例子和一些代码吗?这可能会帮助我们有一个清晰的画面,并更好地帮助。谢谢