Python 如何让scrapy spider从csv列表中获取开始URL和允许的域?

Python 如何让scrapy spider从csv列表中获取开始URL和允许的域?,python,web-scraping,scrapy,Python,Web Scraping,Scrapy,我正在使用一个刮擦蜘蛛为我的研究项目的URL爬行。我的spider基于bhattraideb()中的代码,并经过轻微编辑以更好地满足我的需要 目前,每次更改允许的域和启动URL时,我都会重新启动spider,因为我需要在单独的文件中为每个允许的域提供输出。由于我的URL列表不断增加,这项工作变得非常乏味 我试图使用“I”和“while”在.csv上迭代,导入两个包含允许的\u域的列和start\u URL作为列表,但是它总是与类冲突。 非常感谢您的帮助:-)请参阅: 信息提示:当不使用CSV时,

我正在使用一个刮擦蜘蛛为我的研究项目的URL爬行。我的spider基于bhattraideb()中的代码,并经过轻微编辑以更好地满足我的需要

目前,每次更改允许的域和启动URL时,我都会重新启动spider,因为我需要在单独的文件中为每个允许的域提供输出。由于我的URL列表不断增加,这项工作变得非常乏味

我试图使用“I”和“while”在.csv上迭代,导入两个包含允许的\u域的列和start\u URL作为列表,但是它总是与类冲突。
非常感谢您的帮助:-)

请参阅:

信息提示:当不使用CSV时,您也可以这样做,从列表中读取开始URL

# https://www.food.com/recipe/all/healthy?pn=1
list_url = 'https://www.food.com/recipe/all/healthy?pn='
start_urls = [list_url + str(page)]

增加下一页的页面变量,直到下一页为无。

谢谢!我确实尝试了被接受的答案,但是第二个答案对我来说不起作用。对允许的_域使用相同的方法也很有效(爬行器遵循链接,所以我必须拥有某种黑名单)。你知道如何为每个基本url生成输出文件吗?像所有从URL抓取的URL一样,例如写入www.food.com.txt?我自己得到了:
name=re.search(r“\/\/.*?\/”,str(response.URL))-nameclean=name.group()nameclean2=nameclean.replace(“/”,“”)filename=nameclean2+“.txt”,用open(filename,'a')作为f:f.write('\n'+str(response.URL)+'\n')
啊,是的,或者……如果您想尝试输出到SQL数据库,您可以放入一些条件逻辑来写入一个表(或多个/不同的表)。