Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/regex/17.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
使用regEx使用wget下载整个目录_Regex_Shell_Cygwin_Wget_Http Status Code 403 - Fatal编程技术网

使用regEx使用wget下载整个目录

使用regEx使用wget下载整个目录,regex,shell,cygwin,wget,http-status-code-403,Regex,Shell,Cygwin,Wget,Http Status Code 403,我想从如下URL下载多个PDF-https://dummy.site.com/aabbcc/xyz/2017/09/15/2194812/O7ca217a71ac444eda516d8f78c29091a.pdf 如果我在完整的URL上执行wget,那么它将下载文件wgethttps://dummy.site.com/aabbcc/xyz/2017/09/15/2194812/O7ca217a71ac444eda516d8f78c29091a.pdf 但是如果我尝试递归地下载整个文件夹,那么它将

我想从如下URL下载多个PDF-https://dummy.site.com/aabbcc/xyz/2017/09/15/2194812/O7ca217a71ac444eda516d8f78c29091a.pdf

如果我在完整的URL上执行wget,那么它将下载文件wgethttps://dummy.site.com/aabbcc/xyz/2017/09/15/2194812/O7ca217a71ac444eda516d8f78c29091a.pdf

但是如果我尝试递归地下载整个文件夹,那么它将返回禁止访问

wget -r https://dummy.site.com/aabbcc/xyz/
我尝试过设置用户代理,拒绝robots.txt和互联网上的其他解决方案,但我回到了同样的观点

因此,我想将给定的URL作为公共模式,形成所有可能URL的列表,但不知道如何做到这一点

我只知道我可以将该文件作为输入传递给wget,wget将递归下载这些文件。因此,在这里寻找使用正则表达式形成URL列表的帮助。
谢谢大家!

无法使用通配符下载看不到的文件。如果主机不支持目录列表,则您不知道文件名/路径是什么。另外,由于您不知道生成文件名的算法,因此无法生成和获取它们。

Regex不会生成可能的匹配项。它与现有的匹配。是的,很抱歉造成混淆。我想要的是一个脚本,它将在公共模式上循环,我假设可以使用Regex完成,并生成所有URL组合,这些组合可以传递到wget,它将从实际存在的URL下载,或者继续前进。wget只是跟随链接,如果你只是将它指向某个URL,它可能无法神奇地找到任何有效的子URL,如果没有目录列表,它可能可以下载,而在大多数现代网站上不会有目录列表。