Python 使用Scrapy可以处理多少个URL?

Python 使用Scrapy可以处理多少个URL?,python,python-2.7,web-scraping,scrapy,Python,Python 2.7,Web Scraping,Scrapy,我有一个包含许多URL的文件。我愿意从这些URL中提取链接,然后提取不同页面的标题和元数据 我想知道有多少URL可以提供给Scrapy crawler,这样我就能得到合适的结果。我不知道Scrapy在URL扫描和从URL中提取链接方面是否有任何限制。如何将提取的链接随机化 le = LinkExtractor() for link in le.extract_links(response): yield scrapy.Request(link.url, callback=self.par

我有一个包含许多URL的文件。我愿意从这些URL中提取链接,然后提取不同页面的标题和元数据

我想知道有多少URL可以提供给Scrapy crawler,这样我就能得到合适的结果。我不知道Scrapy在URL扫描和从URL中提取链接方面是否有任何限制。如何将提取的链接随机化

le = LinkExtractor()
for link in le.extract_links(response):
    yield scrapy.Request(link.url, callback=self.parse_inof)
请参阅上面的代码。我用这个从URL中提取链接。我怎么能做到

CONCURRENT_ITEMS
Default: 100
在项目处理器(也称为项目管道)中,每个响应并行处理的最大并发项目数

CONCURRENT_REQUESTS
Default: 16
Scrapy downloader将执行的最大并发请求数

编辑; Altso,也许可以使用

import random

list = [20, 16, 10, 5];
random.shuffle(list)
print "Reshuffled list : ",  list

random.shuffle(list)
print "Reshuffled list : ",  list

You might need to give the list urls a numeric id first.

我试过随机的。但我不知道这对我来说不起作用。我仍在寻找原因。对url处理是否有任何限制?我有很多url。你试过rand_item=random.choiceitems吗?如果您将CLOSESPIDER_ITEMCOUNT设置为0,它将永远持续,而内存不足或没有例外好的想法让我在尝试random.shuffle时尝试一下。我得到以下错误`File/usr/lib/python2.7/random.py,第288行,在shuffle`for I in reversedxrange1,lenx:TypeError:lxmlinkextractor类型的对象没有len