Python 使用Scrapy可以处理多少个URL？_Python_Python 2.7_Web Scraping_Scrapy

Python 使用Scrapy可以处理多少个URL？

python python-2.7 web-scraping scrapy

Python 使用Scrapy可以处理多少个URL？,python,python-2.7,web-scraping,scrapy,Python,Python 2.7,Web Scraping,Scrapy,我有一个包含许多URL的文件。我愿意从这些URL中提取链接，然后提取不同页面的标题和元数据我想知道有多少URL可以提供给Scrapy crawler，这样我就能得到合适的结果。我不知道Scrapy在URL扫描和从URL中提取链接方面是否有任何限制。如何将提取的链接随机化 le = LinkExtractor() for link in le.extract_links(response): yield scrapy.Request(link.url, callback=self.par

我有一个包含许多URL的文件。我愿意从这些URL中提取链接，然后提取不同页面的标题和元数据

我想知道有多少URL可以提供给Scrapy crawler，这样我就能得到合适的结果。我不知道Scrapy在URL扫描和从URL中提取链接方面是否有任何限制。如何将提取的链接随机化

le = LinkExtractor()
for link in le.extract_links(response):
    yield scrapy.Request(link.url, callback=self.parse_inof)

请参阅上面的代码。我用这个从URL中提取链接。我怎么能做到

CONCURRENT_ITEMS
Default: 100

在项目处理器（也称为项目管道）中，每个响应并行处理的最大并发项目数

CONCURRENT_REQUESTS
Default: 16

Scrapy downloader将执行的最大并发请求数

编辑； Altso，也许可以使用

import random

list = [20, 16, 10, 5];
random.shuffle(list)
print "Reshuffled list : ",  list

random.shuffle(list)
print "Reshuffled list : ",  list

You might need to give the list urls a numeric id first.

我试过随机的。但我不知道这对我来说不起作用。我仍在寻找原因。对url处理是否有任何限制？我有很多url。你试过rand_item=random.choiceitems吗？如果您将CLOSESPIDER_ITEMCOUNT设置为0，它将永远持续，而内存不足或没有例外好的想法让我在尝试random.shuffle时尝试一下。我得到以下错误`File/usr/lib/python2.7/random.py，第288行，在shuffle`for I in reversedxrange1，lenx:TypeError:lxmlinkextractor类型的对象没有len