Https 无法获取'；wget——递归'；工作_Https_Wget

Https 无法获取'；wget——递归'；工作

https

Https 无法获取'；wget——递归'；工作,https,wget,Https,Wget,我想下载此页面： https://noppa.aalto.fi/noppa/kurssi/ms-a0210/viikkoharjoitukset 以及其子页面，尤其是.pdf文档： https://noppa.aalto.fi/noppa/kurssi/ms-a0210/viikkoharjoitukset/MS-A0210_thursday_30_oct.pdf https://noppa.aalto.fi/noppa/kurssi/ms-a0210/viikkoharjoitukset/M

我想下载此页面：

https://noppa.aalto.fi/noppa/kurssi/ms-a0210/viikkoharjoitukset

以及其子页面，尤其是.pdf文档：

https://noppa.aalto.fi/noppa/kurssi/ms-a0210/viikkoharjoitukset/MS-A0210_thursday_30_oct.pdf
https://noppa.aalto.fi/noppa/kurssi/ms-a0210/viikkoharjoitukset/MS-A0210_hints_for_w45.pdf
etc.

当我发出这个命令时：

$ wget --page-requisites --convert-links --recursive --level=0 --no-check-certificate --no-proxy -E -H -Dnoppa.aalto.fi -k https://noppa.aalto.fi/noppa/kurssi/ms-a0210/viikkoharjoitukset

我得到：

$ ls -R
.:
noppa.aalto.fi

./noppa.aalto.fi:
noppa  robots.txt

./noppa.aalto.fi/noppa:
kurssi

./noppa.aalto.fi/noppa/kurssi:
ms-a0210

./noppa.aalto.fi/noppa/kurssi/ms-a0210:
viikkoharjoitukset.html

我尝试了几个wget选项，但没有成功

可能是什么问题？

默认情况下，

wget

坚持使用

robots.txt

文件，在这种情况下，不允许所有访问：

User-agent: *
Disallow: /

User-agent: Googlebot
Allow: /
Disallow: /cgi-bin/

如果将

-e robots=off

添加到命令行中，

wget

将不关心

robots.txt

文件。

站点根本不工作？它永远在加载。不管怎样，判断你的输出，它似乎是递归地跟随链接。。。可能只是花了很长时间，或者你超时了。这个网站可以正常工作：我的浏览器（Chrome）加载没有延迟，我发出的wget命令在0.4秒内完成。没有任何超时。