Curl 刮痧VS wget VS卷曲

Curl 刮痧VS wget VS卷曲,curl,scrapy,web-crawler,wget,Curl,Scrapy,Web Crawler,Wget,我目前正在从事一个需要2个主要功能的项目: 从网站(如www.my website.com/index.HTML)只下载一个HTML页面 从网站上递归下载每个HTML页面,不包括外部链接(基本上下载整个网站) 我需要所有的图像和链接包括在所有的HTML网页,而不仅仅是文本 我目前正在为这两个函数使用scrapy。它工作得很好,但我想知道使用wget或curl是否会更好 我的问题: 哪种工具是我实现目标的最佳工具?Wget可以做到这一点 见: 基本上 $ wget \ --recursive \

我目前正在从事一个需要2个主要功能的项目:

  • 从网站(如www.my website.com/index.HTML)只下载一个HTML页面

  • 从网站上递归下载每个HTML页面,不包括外部链接(基本上下载整个网站)

  • 我需要所有的图像和链接包括在所有的HTML网页,而不仅仅是文本

    我目前正在为这两个函数使用scrapy。它工作得很好,但我想知道使用wget或curl是否会更好

    我的问题:

    哪种工具是我实现目标的最佳工具?

    Wget可以做到这一点

    见:

    基本上

    $ wget \
     --recursive \
     --no-clobber \
     --page-requisites \
     --html-extension \
     --convert-links \
     --restrict-file-names=windows \
     --domains website.org \
     --no-parent \
         www.website.org/tutorials/html/
    
    --recursive
    应该保存链接

    ——页面必备项应保存css、图像等。

    1。 wget可以做到这一点,但可以通过使用其他工具轻松完成

    wget -m -k -K -E -p http://url/of/web/site
    
    -p代表下载资产。等待选项-w 10——如果你正在抓取一些第三方网站,可以添加随机等待

    二,。 是复制整个网站内容的有效方法。此工具能够获取使具有工作代码内容的网站脱机工作所需的部分

  • 在窗户上

  • wget比scrapy好吗?我认为他们做的事情不同。。。。一个是框架,另一个是CLI工具。基本上,除了执行带有几个标志的命令外,wget可以在不编写任何额外代码的情况下完成这一切。wget或任何其他镜像工具将完成此工作。Scrapy用于更复杂的东西,如从网站提取结构化数据或提交表单。良好的压缩