Curl 刮痧VS wget VS卷曲_Curl_Scrapy_Web Crawler_Wget

Curl 刮痧VS wget VS卷曲

curl scrapy web-crawler

Curl 刮痧VS wget VS卷曲,curl,scrapy,web-crawler,wget,Curl,Scrapy,Web Crawler,Wget,我目前正在从事一个需要2个主要功能的项目：从网站（如www.my website.com/index.HTML）只下载一个HTML页面从网站上递归下载每个HTML页面，不包括外部链接（基本上下载整个网站）我需要所有的图像和链接包括在所有的HTML网页，而不仅仅是文本我目前正在为这两个函数使用scrapy。它工作得很好，但我想知道使用wget或curl是否会更好我的问题: 哪种工具是我实现目标的最佳工具？Wget可以做到这一点见：基本上 $ wget \ --recursive \

我目前正在从事一个需要2个主要功能的项目：

从网站（如www.my website.com/index.HTML）只下载一个HTML页面

从网站上递归下载每个HTML页面，不包括外部链接（基本上下载整个网站）

我需要所有的图像和链接包括在所有的HTML网页，而不仅仅是文本

我目前正在为这两个函数使用scrapy。它工作得很好，但我想知道使用wget或curl是否会更好

我的问题:

哪种工具是我实现目标的最佳工具？

Wget可以做到这一点

见：

基本上

$ wget \
 --recursive \
 --no-clobber \
 --page-requisites \
 --html-extension \
 --convert-links \
 --restrict-file-names=windows \
 --domains website.org \
 --no-parent \
     www.website.org/tutorials/html/

--recursive

应该保存链接

——页面必备项应保存css、图像等。1。
wget可以做到这一点，但可以通过使用其他工具轻松完成
wget -m -k -K -E -p http://url/of/web/site

-p代表下载资产。等待选项-w 10——如果你正在抓取一些第三方网站，可以添加随机等待
二,。
是复制整个网站内容的有效方法。此工具能够获取使具有工作代码内容的网站脱机工作所需的部分
在窗户上
wget比scrapy好吗？我认为他们做的事情不同。。。。一个是框架，另一个是CLI工具。基本上，除了执行带有几个标志的命令外，wget可以在不编写任何额外代码的情况下完成这一切。wget或任何其他镜像工具将完成此工作。Scrapy用于更复杂的东西，如从网站提取结构化数据或提交表单。良好的压缩