Amazon web services wget不在Amazon AWS S3上下载文件
我试图从以下网页下载所有幻灯片 我使用的命令是Amazon web services wget不在Amazon AWS S3上下载文件,amazon-web-services,amazon-s3,https,wget,Amazon Web Services,Amazon S3,Https,Wget,我试图从以下网页下载所有幻灯片 我使用的命令是 wget --no-check-certificate --no-proxy -r -l 3 'https://web.stanford.edu/~jurafsky/NLPCourseraSlides.html' 我只能下载html和一些PNG文件。这些幻灯片托管在AmazonS3上,但我无法使用上面的命令对它们进行爬网。终端上显示的消息是 不过,我可以使用下面的命令直接下载这些幻灯片 wget http://spark-public.s3.am
wget --no-check-certificate --no-proxy -r -l 3 'https://web.stanford.edu/~jurafsky/NLPCourseraSlides.html'
我只能下载html和一些PNG文件。这些幻灯片托管在AmazonS3上,但我无法使用上面的命令对它们进行爬网。终端上显示的消息是
不过,我可以使用下面的命令直接下载这些幻灯片
wget http://spark-public.s3.amazonaws.com/nlp/slides/intro.pdf
有人知道为什么吗?如何使用单个命令下载该页面上的所有幻灯片 您需要做的是所谓的“HTML抓取”。这意味着您获取一个HTML页面,然后解析页面内的HTML链接。解析后,您可以下载、编目等文档(网页)中的链接 这篇StackOverflow文章非常受欢迎:
我以为wget的“-r”选项和“-l”选项就是用于此目的的,不是吗?您需要查阅您正在使用的wget版本的文档。wget有许多克隆。并非所有人都支持相同的选项。并非所有克隆都可以处理所有类型HTML页面的递归下载。如果您的测试用例不起作用,请使用其他版本或报告错误。我在同一台计算机上使用了相同的命令从此站点下载文件:。我的wget版本随CentOS7提供,因此软件上应该没有问题。
wget http://spark-public.s3.amazonaws.com/nlp/slides/intro.pdf