Python 我可以使用scrapy刮取本地机器上的html页面吗?
我是个新手。我需要用scrapy做一个小演示 我使用scrapy来清除堆栈溢出,我成功了。我想尝试在存储在本地机器中的html页面上删除此内容。可能吗Python 我可以使用scrapy刮取本地机器上的html页面吗?,python,scrapy,Python,Scrapy,我是个新手。我需要用scrapy做一个小演示 我使用scrapy来清除堆栈溢出,我成功了。我想尝试在存储在本地机器中的html页面上删除此内容。可能吗 请帮帮我是的,你可以。只需将允许的域保留为空,并在开始url中,将html文件的位置设置为file://home/file.html。 代码是这样的 class MySpider(Spider): name = "myspider" allowed_domains = [] start_urls = ["file:///h
请帮帮我是的,你可以。只需将允许的域保留为空,并在开始url中,将html文件的位置设置为
file://home/file.html
。
代码是这样的
class MySpider(Spider):
name = "myspider"
allowed_domains = []
start_urls = ["file:///home/file.html"]
据我所知,Scrapy不支持从文件系统中进行刮取。我想原因是没有逻辑上的理由为什么你会用它来处理本地文件。但是,您可以使用本地服务器来提供文件。换句话说,您可以转到存储html文件的目录(我想像您描述的静态html),然后执行
python-m“SimpleHTTPServer”
。默认情况下,这将在端口8000上启动本地http服务器。换句话说,该目录中的所有html文件和数据都将提供给http://localhost:8000