Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/amazon-s3/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Amazon web services wget不在Amazon AWS S3上下载文件_Amazon Web Services_Amazon S3_Https_Wget - Fatal编程技术网

Amazon web services wget不在Amazon AWS S3上下载文件

Amazon web services wget不在Amazon AWS S3上下载文件,amazon-web-services,amazon-s3,https,wget,Amazon Web Services,Amazon S3,Https,Wget,我试图从以下网页下载所有幻灯片 我使用的命令是 wget --no-check-certificate --no-proxy -r -l 3 'https://web.stanford.edu/~jurafsky/NLPCourseraSlides.html' 我只能下载html和一些PNG文件。这些幻灯片托管在AmazonS3上,但我无法使用上面的命令对它们进行爬网。终端上显示的消息是 不过,我可以使用下面的命令直接下载这些幻灯片 wget http://spark-public.s3.am

我试图从以下网页下载所有幻灯片

我使用的命令是

wget --no-check-certificate --no-proxy -r -l 3 'https://web.stanford.edu/~jurafsky/NLPCourseraSlides.html'
我只能下载html和一些PNG文件。这些幻灯片托管在AmazonS3上,但我无法使用上面的命令对它们进行爬网。终端上显示的消息是

不过,我可以使用下面的命令直接下载这些幻灯片

wget http://spark-public.s3.amazonaws.com/nlp/slides/intro.pdf

有人知道为什么吗?如何使用单个命令下载该页面上的所有幻灯片

您需要做的是所谓的“HTML抓取”。这意味着您获取一个HTML页面,然后解析页面内的HTML链接。解析后,您可以下载、编目等文档(网页)中的链接

这篇StackOverflow文章非常受欢迎:


我以为wget的“-r”选项和“-l”选项就是用于此目的的,不是吗?您需要查阅您正在使用的wget版本的文档。wget有许多克隆。并非所有人都支持相同的选项。并非所有克隆都可以处理所有类型HTML页面的递归下载。如果您的测试用例不起作用,请使用其他版本或报告错误。我在同一台计算机上使用了相同的命令从此站点下载文件:。我的wget版本随CentOS7提供,因此软件上应该没有问题。
wget http://spark-public.s3.amazonaws.com/nlp/slides/intro.pdf