Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/317.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 我可以使用scrapy刮取本地机器上的html页面吗?_Python_Scrapy - Fatal编程技术网

Python 我可以使用scrapy刮取本地机器上的html页面吗?

Python 我可以使用scrapy刮取本地机器上的html页面吗?,python,scrapy,Python,Scrapy,我是个新手。我需要用scrapy做一个小演示 我使用scrapy来清除堆栈溢出,我成功了。我想尝试在存储在本地机器中的html页面上删除此内容。可能吗 请帮帮我是的,你可以。只需将允许的域保留为空,并在开始url中,将html文件的位置设置为file://home/file.html。 代码是这样的 class MySpider(Spider): name = "myspider" allowed_domains = [] start_urls = ["file:///h

我是个新手。我需要用scrapy做一个小演示

我使用scrapy来清除堆栈溢出,我成功了。我想尝试在存储在本地机器中的html页面上删除此内容。可能吗


请帮帮我是的,你可以。只需将允许的域保留为空,并在开始url中,将html文件的位置设置为
file://home/file.html
。 代码是这样的

class MySpider(Spider):
    name = "myspider"
    allowed_domains = []
    start_urls = ["file:///home/file.html"]

据我所知,Scrapy不支持从文件系统中进行刮取。我想原因是没有逻辑上的理由为什么你会用它来处理本地文件。但是,您可以使用本地服务器来提供文件。换句话说,您可以转到存储html文件的目录(我想像您描述的静态html),然后执行
python-m“SimpleHTTPServer”
。默认情况下,这将在端口8000上启动本地http服务器。换句话说,该目录中的所有html文件和数据都将提供给
http://localhost:8000