从域获取所有pdf文件（例如*.adomain.com）_Pdf_Download_Scraper

从域获取所有pdf文件（例如*.adomain.com）

pdf download

从域获取所有pdf文件（例如*.adomain.com）,pdf,download,scraper,Pdf,Download,Scraper,我需要从某个域下载所有pdf文件。该域上大约有6000个pdf，其中大多数都没有html链接，要么删除了链接，要么根本就没有链接我知道大约有6000个文件，因为我在谷歌上搜索：filetype:pdf站点：*.adomain.com 然而，谷歌只列出了前1000条搜索结果。我相信有两种方法可以做到这一点： a使用谷歌。然而，我怎样才能从谷歌获得全部6000条搜索结果呢？也许是刮刀？试过偷窥，运气不好跳过谷歌，直接在域名上搜索pdf文件。如果指向文件的链接已被删除，并且您没有列出目录的权限，那

我需要从某个域下载所有pdf文件。该域上大约有6000个pdf，其中大多数都没有html链接，要么删除了链接，要么根本就没有链接

我知道大约有6000个文件，因为我在谷歌上搜索：filetype:pdf站点：*.adomain.com

然而，谷歌只列出了前1000条搜索结果。我相信有两种方法可以做到这一点：

a使用谷歌。然而，我怎样才能从谷歌获得全部6000条搜索结果呢？也许是刮刀？试过偷窥，运气不好

跳过谷歌，直接在域名上搜索pdf文件。如果指向文件的链接已被删除，并且您没有列出目录的权限，那么基本上不可能知道pdf文件背后的URL是什么

如果您认为过去有指向这些文件的链接，您可以查看并查找页面的以前状态

要递归检索站点上提到的所有PDF，我建议使用wget。从

您希望从http服务器上的目录下载所有GIF。您尝试了“wget*.gif”，但没有成功，因为http检索不支持全局搜索。在这种情况下，请使用：

     wget -r -l1 --no-parent -A.gif http://www.server.com/dir/

更详细，但效果是一样的。”-r-l1'表示递归检索，请参阅递归下载，最大深度为1。'-“无父目录”表示忽略对父目录的引用请参见基于目录的限制，“-A.gif”表示仅下载gif文件。”-一个*.gif'也可以

只需将.gif替换为.pdf即可

任何一个系统怎么可能知道一个特定域所允许的所有子域？