Python 如何将URL逐个加载到Scrapy中
我正在构建一个需要抓取超过500万个URL的爬虫程序。目前,我使用以下方法将文件中的所有URL加载到start_URL列表中,我发现这占用了太多内存Python 如何将URL逐个加载到Scrapy中,python,web-scraping,scrapy,Python,Web Scraping,Scrapy,我正在构建一个需要抓取超过500万个URL的爬虫程序。目前,我使用以下方法将文件中的所有URL加载到start_URL列表中,我发现这占用了太多内存 self.start_urls = get_list_from_file(file_path) 所以我想知道是否有一种方法可以将URL一个一个地加载到内存中,这样我就可以保持较低的内存成本。当然,请使用爬行器上的方法。例如: def start_requests(self): reader = csv.reader(open('urls.
self.start_urls = get_list_from_file(file_path)
所以我想知道是否有一种方法可以将URL一个一个地加载到内存中,这样我就可以保持较低的内存成本。当然,请使用爬行器上的方法。例如:
def start_requests(self):
reader = csv.reader(open('urls.csv'))
for row in reader:
url = row[0]
yield Request(url=url)
另外,让您的get\u list\u from\u file
函数作为生成器工作也是一个好主意
希望有帮助