从域获取所有pdf文件(例如*.adomain.com)

从域获取所有pdf文件(例如*.adomain.com),pdf,download,scraper,Pdf,Download,Scraper,我需要从某个域下载所有pdf文件。该域上大约有6000个pdf,其中大多数都没有html链接,要么删除了链接,要么根本就没有链接 我知道大约有6000个文件,因为我在谷歌上搜索:filetype:pdf站点:*.adomain.com 然而,谷歌只列出了前1000条搜索结果。我相信有两种方法可以做到这一点: a使用谷歌。然而,我怎样才能从谷歌获得全部6000条搜索结果呢?也许是刮刀?试过偷窥,运气不好 跳过谷歌,直接在域名上搜索pdf文件。如果指向文件的链接已被删除,并且您没有列出目录的权限,那

我需要从某个域下载所有pdf文件。该域上大约有6000个pdf,其中大多数都没有html链接,要么删除了链接,要么根本就没有链接

我知道大约有6000个文件,因为我在谷歌上搜索:filetype:pdf站点:*.adomain.com

然而,谷歌只列出了前1000条搜索结果。我相信有两种方法可以做到这一点:

a使用谷歌。然而,我怎样才能从谷歌获得全部6000条搜索结果呢?也许是刮刀?试过偷窥,运气不好
跳过谷歌,直接在域名上搜索pdf文件。如果指向文件的链接已被删除,并且您没有列出目录的权限,那么基本上不可能知道pdf文件背后的URL是什么

如果您认为过去有指向这些文件的链接,您可以查看并查找页面的以前状态

要递归检索站点上提到的所有PDF,我建议使用wget。从

您希望从http服务器上的目录下载所有GIF。您尝试了“wget*.gif”,但没有成功,因为http检索不支持全局搜索。在这种情况下,请使用:

     wget -r -l1 --no-parent -A.gif http://www.server.com/dir/
更详细,但效果是一样的。”-r-l1'表示递归检索,请参阅递归下载,最大深度为1。'-“无父目录”表示忽略对父目录的引用请参见基于目录的限制,“-A.gif”表示仅下载gif文件。”-一个*.gif'也可以

只需将.gif替换为.pdf即可

任何一个系统怎么可能知道一个特定域所允许的所有子域?