Amazon web services wget不在Amazon AWS S3上下载文件_Amazon Web Services_Amazon S3_Https_Wget

Amazon web services wget不在Amazon AWS S3上下载文件

amazon-web-services amazon-s3 https

Amazon web services wget不在Amazon AWS S3上下载文件,amazon-web-services,amazon-s3,https,wget,Amazon Web Services,Amazon S3,Https,Wget,我试图从以下网页下载所有幻灯片我使用的命令是 wget --no-check-certificate --no-proxy -r -l 3 'https://web.stanford.edu/~jurafsky/NLPCourseraSlides.html' 我只能下载html和一些PNG文件。这些幻灯片托管在AmazonS3上，但我无法使用上面的命令对它们进行爬网。终端上显示的消息是不过，我可以使用下面的命令直接下载这些幻灯片 wget http://spark-public.s3.am

我试图从以下网页下载所有幻灯片

我使用的命令是

wget --no-check-certificate --no-proxy -r -l 3 'https://web.stanford.edu/~jurafsky/NLPCourseraSlides.html'

我只能下载html和一些PNG文件。这些幻灯片托管在AmazonS3上，但我无法使用上面的命令对它们进行爬网。终端上显示的消息是

不过，我可以使用下面的命令直接下载这些幻灯片

wget http://spark-public.s3.amazonaws.com/nlp/slides/intro.pdf

有人知道为什么吗？如何使用单个命令下载该页面上的所有幻灯片

您需要做的是所谓的“HTML抓取”。这意味着您获取一个HTML页面，然后解析页面内的HTML链接。解析后，您可以下载、编目等文档（网页）中的链接

这篇StackOverflow文章非常受欢迎：

我以为wget的“-r”选项和“-l”选项就是用于此目的的，不是吗？您需要查阅您正在使用的wget版本的文档。wget有许多克隆。并非所有人都支持相同的选项。并非所有克隆都可以处理所有类型HTML页面的递归下载。如果您的测试用例不起作用，请使用其他版本或报告错误。我在同一台计算机上使用了相同的命令从此站点下载文件：。我的wget版本随CentOS7提供，因此软件上应该没有问题。

wget http://spark-public.s3.amazonaws.com/nlp/slides/intro.pdf