有没有办法下载链接到网站上的多个PDF？_Pdf_Web Scraping_Automation

有没有办法下载链接到网站上的多个PDF？

pdf web-scraping automation

有没有办法下载链接到网站上的多个PDF？,pdf,web-scraping,automation,Pdf,Web Scraping,Automation,我正试图从美联储档案馆下载一堆PDF，但我必须点击一个链接，然后查看PDF，然后才能下载。有没有一种方法可以让这一切自动化示例：是演讲的链接，然后你必须单击标题，然后查看pdf，然后单击实际下载按钮所有远程.pdf文件都遵循路径格式： https://fraser.stlouisfed.org/files/docs/historical/frbatl/speeches/guynn_xxxxxxxx.pdf 其中每个x都是一个数字的占位符所以，是的，使用终端中的命令行或您可以访问的任何she

我正试图从美联储档案馆下载一堆PDF，但我必须点击一个链接，然后查看PDF，然后才能下载。有没有一种方法可以让这一切自动化

示例：是演讲的链接，然后你必须单击标题，然后查看pdf，然后单击实际下载按钮

所有远程.pdf文件都遵循路径格式：

https://fraser.stlouisfed.org/files/docs/historical/frbatl/speeches/guynn_xxxxxxxx.pdf

其中每个x都是一个数字的占位符

所以，是的，使用终端中的命令行或您可以访问的任何shell程序，一次下载一堆PDF都非常容易

如果您使用的是基于*nix的操作系统，包括MacOS，这很好，因为您的shell可能已经安装了一个名为curl的命令实用程序。Windows可能也有，我不确定；我不用窗户

如果您使用的是Windows，则必须对下面的代码进行一些调整，因为文件夹结构和文件命名约定不同，所以前两个命令无法工作

但是，如果您愿意继续，请打开一个终端窗口，然后键入此命令以在下载文件夹中创建一个新目录，其中将下载.pdf文件：

mkdir ~/Downloads/FRASER_PDFs; cd ~/Downloads/FRASER_PDFs

按回车键。接下来，如果没有错误，请复制-n-paste此长命令，然后按Enter键：

您可以看到，这使用了您在问题中提供的URL，该命令从中检索所有.pdf链接。如果您需要对其他类似的页面执行相同的操作，只要它们都使用相同的URL格式，就可以用包含另一个.pdf列表的页面引用替换5170521653。

欢迎使用堆栈溢出。请拿着这本书读一读。

curl --url \
"https://fraser.stlouisfed.org/files/docs/historical/frbatl/speeches/guynn_{"$(curl \
https://fraser.stlouisfed.org/title/5170#521653 --silent \
| egrep -io -e '/files/docs/historical/frbatl/speeches/guynn_\d+\.pdf' \
| egrep -o -e '\d+' | tr '\n' ',')"}.pdf" -O --remote-name-all