有没有办法下载链接到网站上的多个PDF?

有没有办法下载链接到网站上的多个PDF?,pdf,web-scraping,automation,Pdf,Web Scraping,Automation,我正试图从美联储档案馆下载一堆PDF,但我必须点击一个链接,然后查看PDF,然后才能下载。有没有一种方法可以让这一切自动化 示例:是演讲的链接,然后你必须单击标题,然后查看pdf,然后单击实际下载按钮 所有远程.pdf文件都遵循路径格式: https://fraser.stlouisfed.org/files/docs/historical/frbatl/speeches/guynn_xxxxxxxx.pdf 其中每个x都是一个数字的占位符 所以,是的,使用终端中的命令行或您可以访问的任何she

我正试图从美联储档案馆下载一堆PDF,但我必须点击一个链接,然后查看PDF,然后才能下载。有没有一种方法可以让这一切自动化

示例:是演讲的链接,然后你必须单击标题,然后查看pdf,然后单击实际下载按钮

所有远程.pdf文件都遵循路径格式:

https://fraser.stlouisfed.org/files/docs/historical/frbatl/speeches/guynn_xxxxxxxx.pdf

其中每个x都是一个数字的占位符

所以,是的,使用终端中的命令行或您可以访问的任何shell程序,一次下载一堆PDF都非常容易

如果您使用的是基于*nix的操作系统,包括MacOS,这很好,因为您的shell可能已经安装了一个名为curl的命令实用程序。Windows可能也有,我不确定;我不用窗户

如果您使用的是Windows,则必须对下面的代码进行一些调整,因为文件夹结构和文件命名约定不同,所以前两个命令无法工作

但是,如果您愿意继续,请打开一个终端窗口,然后键入此命令以在下载文件夹中创建一个新目录,其中将下载.pdf文件:

mkdir ~/Downloads/FRASER_PDFs; cd ~/Downloads/FRASER_PDFs
按回车键。接下来,如果没有错误,请复制-n-paste此长命令,然后按Enter键:


您可以看到,这使用了您在问题中提供的URL,该命令从中检索所有.pdf链接。如果您需要对其他类似的页面执行相同的操作,只要它们都使用相同的URL格式,就可以用包含另一个.pdf列表的页面引用替换5170521653。

欢迎使用堆栈溢出。请拿着这本书读一读。
curl --url \
"https://fraser.stlouisfed.org/files/docs/historical/frbatl/speeches/guynn_{"$(curl \
https://fraser.stlouisfed.org/title/5170#521653 --silent \
| egrep -io -e '/files/docs/historical/frbatl/speeches/guynn_\d+\.pdf' \
| egrep -o -e '\d+' | tr '\n' ',')"}.pdf" -O --remote-name-all