Warning: file_get_contents(/data/phpspider/zhask/data//catemap/5/reporting-services/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python Scrapy:是否可以使用url扩展来抓取不同的网站?_Python_Scrapy - Fatal编程技术网

Python Scrapy:是否可以使用url扩展来抓取不同的网站?

Python Scrapy:是否可以使用url扩展来抓取不同的网站?,python,scrapy,Python,Scrapy,我有一个名为www.example.edu 首先,我想开始在0深度与类似的扩展抓取网站 第二,我想阻止蜘蛛爬行,例如,当它已经爬行了20多个网站时 这两个限制是否可能实现 假设我有以下代码: class MySpider(scrapy.Spider): name = 'spiderz' allowed_domains = ['berkeley.edu'] start_urls = ['http://www.berkeley.edu/',] 我想知道是否可以在start\

我有一个名为
www.example.edu

首先,我想开始在0深度与类似的扩展抓取网站

第二,我想阻止蜘蛛爬行,例如,当它已经爬行了20多个网站时

这两个限制是否可能实现

假设我有以下代码:

class MySpider(scrapy.Spider):
    name = 'spiderz'
    allowed_domains = ['berkeley.edu']
    start_urls = ['http://www.berkeley.edu/',]
我想知道是否可以在
start\u url
之后爬行,这是一个具有相同扩展名的随机域,例如phoenix.edu,然后是columbia.edu,仅使用.edu作为规则模式

我只对域名感兴趣

我想收集20个扩展名为.edu的随机域名


您能提供一个具体的例子和一些到目前为止的代码吗?这可能会帮助我们有一个清晰的画面,并更好地帮助。谢谢。你能提供一个具体的例子和一些代码吗?这可能会帮助我们有一个清晰的画面,并更好地帮助。谢谢