Curl 刮痧VS wget VS卷曲
我目前正在从事一个需要2个主要功能的项目:Curl 刮痧VS wget VS卷曲,curl,scrapy,web-crawler,wget,Curl,Scrapy,Web Crawler,Wget,我目前正在从事一个需要2个主要功能的项目: 从网站(如www.my website.com/index.HTML)只下载一个HTML页面 从网站上递归下载每个HTML页面,不包括外部链接(基本上下载整个网站) 我需要所有的图像和链接包括在所有的HTML网页,而不仅仅是文本 我目前正在为这两个函数使用scrapy。它工作得很好,但我想知道使用wget或curl是否会更好 我的问题: 哪种工具是我实现目标的最佳工具?Wget可以做到这一点 见: 基本上 $ wget \ --recursive \
$ wget \
--recursive \
--no-clobber \
--page-requisites \
--html-extension \
--convert-links \
--restrict-file-names=windows \
--domains website.org \
--no-parent \
www.website.org/tutorials/html/
--recursive
应该保存链接
——页面必备项应保存css、图像等。1。
wget可以做到这一点,但可以通过使用其他工具轻松完成
wget -m -k -K -E -p http://url/of/web/site
-p代表下载资产。等待选项-w 10——如果你正在抓取一些第三方网站,可以添加随机等待
二,。
是复制整个网站内容的有效方法。此工具能够获取使具有工作代码内容的网站脱机工作所需的部分
在窗户上
wget比scrapy好吗?我认为他们做的事情不同。。。。一个是框架,另一个是CLI工具。基本上,除了执行带有几个标志的命令外,wget可以在不编写任何额外代码的情况下完成这一切。wget或任何其他镜像工具将完成此工作。Scrapy用于更复杂的东西,如从网站提取结构化数据或提交表单。良好的压缩