Python 在具有不同允许域的Scrapy Crawlspider中添加多个起始URL的最佳方法是什么?

Python 在具有不同允许域的Scrapy Crawlspider中添加多个起始URL的最佳方法是什么?,python,web-scraping,scrapy,Python,Web Scraping,Scrapy,目前,我正在使用下面的代码添加多个起始URL(50K) 但是,我认为这不会为每个网站保留不同的允许域。我还想在每个链接中传递一些元信息。如果你想要不同的允许域,那么你必须在独立的爬行器中运行。如何创建和管理50K爬行器?你可以使用-a NAME=VALUE-启动带有参数的爬行器/爬行器,这样你就可以创建一个爬行器并使用不同的参数运行它。其他想法:如果你使用Request()然后您可以将meta={}发送给解析响应的函数,它可以使用domain过滤下一个请求的URL(该请求也必须发送domain)

目前,我正在使用下面的代码添加多个起始URL(50K)


但是,我认为这不会为每个网站保留不同的允许域。我还想在每个链接中传递一些元信息。

如果你想要不同的允许域,那么你必须在独立的爬行器中运行。如何创建和管理50K爬行器?你可以使用
-a NAME=VALUE
-启动带有参数的爬行器/爬行器,这样你就可以创建一个爬行器并使用不同的参数运行它。其他想法:如果你使用
Request()
然后您可以将
meta={}
发送给解析响应的函数,它可以使用
domain
过滤下一个
请求的URL(该请求也必须发送
domain
)-但它只需要标准
Request
来刮取URL。是的,我在常规spider中使用了元参数,并使用def start_requests()函数调用其他函数。但它不能与爬行蜘蛛的多个起始URL一起工作。
start_urls=[]
allowed_domains=[]    
df=pd.read_excel("xyz.xlsx")    
for url in df['URL']:    
    start_urls.append(parent_url)    
    allowed_domains.append(tldextract.extract(parent_url).registered_domain)