Python 从脚本设置Scrapy start_URL
我有一个正在工作的scrapy spider,我可以在下面的脚本中通过一个单独的脚本来运行它。我还为我的脚本创建了一个wxpythongui,它只包含一个多行TextCtrl,供用户输入一个要刮取的url列表和一个要提交的按钮。当前,开始URL已硬编码到我的spider中-如何将在TextCtrl中输入的URL传递到我的spider中的开始URL数组?提前感谢您的帮助 只需在您的Python 从脚本设置Scrapy start_URL,python,python-2.7,wxpython,web-scraping,scrapy,Python,Python 2.7,Wxpython,Web Scraping,Scrapy,我有一个正在工作的scrapy spider,我可以在下面的脚本中通过一个单独的脚本来运行它。我还为我的脚本创建了一个wxpythongui,它只包含一个多行TextCtrl,供用户输入一个要刮取的url列表和一个要提交的按钮。当前,开始URL已硬编码到我的spider中-如何将在TextCtrl中输入的URL传递到我的spider中的开始URL数组?提前感谢您的帮助 只需在您的Spider实例上设置start\u URL: spider = FollowAllSpider(domain=dom
Spider
实例上设置start\u URL
:
spider = FollowAllSpider(domain=domain)
spider.start_urls = ['http://google.com']
这个答案对我不适用。我的解决方案适用于Scrapy==1.0.3:
from scrapy.crawler import CrawlerProcess
from tutorial.spiders.some_spider import SomeSpider
process = CrawlerProcess()
process.crawl(SomeSpider, start_urls=["http://www.example.com"])
process.start()
它可能会在将来帮助某些人。谢谢,这是有效的-但是,只有一个URL。它似乎无法将多行上的多个URL解析为起始URL的正确格式。我在输入单个URL时得到结果,但不是多个URL。有什么建议吗?这是我目前的方法:
spider.start\u URL=[self.tc2.GetValue()]
如何设置多个URL?什么是self.tc2
?对不起,self.tc2
是我的多行文本Ctrl。例如,当我使用savefile=open('urls.txt','w')
savefile.write(self.tc2.GetValue())
时,它会创建一个包含多行的文本文件,就像输入TextCtrl一样。我想我需要知道的是如何将多行解析为数组格式,其中每行用逗号分隔。这有意义吗?@user994585尝试spider.start\u url=self.tc2.GetValue().splitlines()
。