Python 我可以使用scrapy刮取本地机器上的html页面吗？_Python_Scrapy

Python 我可以使用scrapy刮取本地机器上的html页面吗？

python scrapy

Python 我可以使用scrapy刮取本地机器上的html页面吗？,python,scrapy,Python,Scrapy,我是个新手。我需要用scrapy做一个小演示我使用scrapy来清除堆栈溢出，我成功了。我想尝试在存储在本地机器中的html页面上删除此内容。可能吗请帮帮我是的，你可以。只需将允许的域保留为空，并在开始url中，将html文件的位置设置为file://home/file.html。代码是这样的 class MySpider(Spider): name = "myspider" allowed_domains = [] start_urls = ["file:///h

我是个新手。我需要用scrapy做一个小演示

我使用scrapy来清除堆栈溢出，我成功了。我想尝试在存储在本地机器中的html页面上删除此内容。可能吗

请帮帮我是的，你可以。只需将允许的域保留为空，并在开始url中，将html文件的位置设置为

file://home/file.html

。代码是这样的

class MySpider(Spider):
    name = "myspider"
    allowed_domains = []
    start_urls = ["file:///home/file.html"]

据我所知，Scrapy不支持从文件系统中进行刮取。我想原因是没有逻辑上的理由为什么你会用它来处理本地文件。但是，您可以使用本地服务器来提供文件。换句话说，您可以转到存储html文件的目录（我想像您描述的静态html），然后执行

python-m“SimpleHTTPServer”

。默认情况下，这将在端口8000上启动本地http服务器。换句话说，该目录中的所有html文件和数据都将提供给

http://localhost:8000