Python 在具有不同允许域的Scrapy Crawlspider中添加多个起始URL的最佳方法是什么？_Python_Web Scraping_Scrapy

Python 在具有不同允许域的Scrapy Crawlspider中添加多个起始URL的最佳方法是什么？

python web-scraping scrapy

Python 在具有不同允许域的Scrapy Crawlspider中添加多个起始URL的最佳方法是什么？,python,web-scraping,scrapy,Python,Web Scraping,Scrapy,目前，我正在使用下面的代码添加多个起始URL（50K）但是，我认为这不会为每个网站保留不同的允许域。我还想在每个链接中传递一些元信息。如果你想要不同的允许域，那么你必须在独立的爬行器中运行。如何创建和管理50K爬行器？你可以使用-a NAME=VALUE-启动带有参数的爬行器/爬行器，这样你就可以创建一个爬行器并使用不同的参数运行它。其他想法：如果你使用Request（）然后您可以将meta={}发送给解析响应的函数，它可以使用domain过滤下一个请求的URL（该请求也必须发送domain）

目前，我正在使用下面的代码添加多个起始URL（50K）

但是，我认为这不会为每个网站保留不同的允许域。我还想在每个链接中传递一些元信息。

如果你想要不同的允许域，那么你必须在独立的爬行器中运行。如何创建和管理50K爬行器？你可以使用

-a NAME=VALUE

-启动带有参数的爬行器/爬行器，这样你就可以创建一个爬行器并使用不同的参数运行它。其他想法：如果你使用

Request（）

然后您可以将

meta={}

发送给解析响应的函数，它可以使用

domain

过滤下一个

请求的URL（该请求也必须发送domain
）-但它只需要标准Request来刮取URL。是的，我在常规spider中使用了元参数，并使用def start_requests（）函数调用其他函数。但它不能与爬行蜘蛛的多个起始URL一起工作。
start_urls=[]
allowed_domains=[]    
df=pd.read_excel("xyz.xlsx")    
for url in df['URL']:    
    start_urls.append(parent_url)    
    allowed_domains.append(tldextract.extract(parent_url).registered_domain)