Python 如何让scrapy spider从csv列表中获取开始URL和允许的域？_Python_Web Scraping_Scrapy

Python 如何让scrapy spider从csv列表中获取开始URL和允许的域？

python web-scraping scrapy

Python 如何让scrapy spider从csv列表中获取开始URL和允许的域？,python,web-scraping,scrapy,Python,Web Scraping,Scrapy,我正在使用一个刮擦蜘蛛为我的研究项目的URL爬行。我的spider基于bhattraideb（）中的代码，并经过轻微编辑以更好地满足我的需要目前，每次更改允许的域和启动URL时，我都会重新启动spider，因为我需要在单独的文件中为每个允许的域提供输出。由于我的URL列表不断增加，这项工作变得非常乏味我试图使用“I”和“while”在.csv上迭代，导入两个包含允许的\u域的列和start\u URL作为列表，但是它总是与类冲突。非常感谢您的帮助：-）请参阅：信息提示：当不使用CSV时，

我正在使用一个刮擦蜘蛛为我的研究项目的URL爬行。我的spider基于bhattraideb（）中的代码，并经过轻微编辑以更好地满足我的需要

目前，每次更改允许的域和启动URL时，我都会重新启动spider，因为我需要在单独的文件中为每个允许的域提供输出。由于我的URL列表不断增加，这项工作变得非常乏味

我试图使用“I”和“while”在.csv上迭代，导入两个包含允许的\u域的列和start\u URL作为列表，但是它总是与类冲突。
非常感谢您的帮助：-）

请参阅：

信息提示：当不使用CSV时，您也可以这样做，从列表中读取开始URL：

# https://www.food.com/recipe/all/healthy?pn=1
list_url = 'https://www.food.com/recipe/all/healthy?pn='
start_urls = [list_url + str(page)]

谢谢！我确实尝试了被接受的答案，但是第二个答案对我来说不起作用。对允许的_域使用相同的方法也很有效（爬行器遵循链接，所以我必须拥有某种黑名单）。你知道如何为每个基本url生成输出文件吗？像所有从URL抓取的URL一样，例如写入www.food.com.txt？我自己得到了：

name=re.search（r“\/\/.*？\/”，str（response.URL））-nameclean=name.group（）nameclean2=nameclean.replace（“/”，“”）filename=nameclean2+“.txt”，用open（filename，'a'）作为f:f.write（'\n'+str（response.URL）+'\n'）

啊，是的，或者……如果您想尝试输出到SQL数据库，您可以放入一些条件逻辑来写入一个表（或多个/不同的表）。