Web scraping wget似乎忽略了我的--wait和--random wait参数

Web scraping wget似乎忽略了我的--wait和--random wait参数,web-scraping,wget,Web Scraping,Wget,我试着友好地指定一个80秒的等待时间+随机性因子,由--random wait提供 但当我查看日志文件时,似乎wget正在尽可能快地处理请求。例如,在22:01:17+时,有数十个请求立即发出。我能找到的所有文档都说参数值是以秒为单位的,而不是以毫秒为单位的 下载了从gnu站点(非sourceforge)引用的windows二进制文件 C:\Users\mds\Downloads\foo>wget——构建在其上的GNU wget 1.17.1版本 明W32 +摘要-gpgme+https+ipv

我试着友好地指定一个80秒的等待时间+随机性因子,由--random wait提供

但当我查看日志文件时,似乎wget正在尽可能快地处理请求。例如,在22:01:17+时,有数十个请求立即发出。我能找到的所有文档都说参数值是以秒为单位的,而不是以毫秒为单位的

下载了从gnu站点(非sourceforge)引用的windows二进制文件

C:\Users\mds\Downloads\foo>wget——构建在其上的GNU wget 1.17.1版本 明W32

+摘要-gpgme+https+ipv6+iri+大文件+metalink-nls+ntlm +opie-psl+ssl/openssl

工作组: /win32dev/misc/wget/out64/etc/wgetrc(系统)编译: x86_64-w64-mingw32-gcc-DHAVE_CONFIG_H -DSYSTEM_WGETRC=“/win32dev/misc/wget/out64/etc/WGETRC” -DLOCALEDIR=“/win32dev/misc/wget/out64/share/locale”-I.-I../lib -I../lib-I/win32dev/misc/wget/out64/include -I/win32dev/misc/wget/out64/include -I/win32dev/misc/wget/out64/include -I/win32dev/misc/wget/out64/include-DHAVE_LIBSSL-DNDEBUG链接: x86_64-w64-mingw32-gcc-I/win32dev/misc/wget/out64/include -I/win32dev/misc/wget/out64/include-DHAVE_LIBSSL-DNDEBUG -L/win32dev/misc/wget/out64/lib-L/win32dev/misc/wget/out64/lib /win32dev/misc/wget/out64/lib/libiconv.a -L/win32dev/misc/wget/out64/lib-lmetalink -L/win32dev/misc/wget/out64/lib-lssl-lcrypto-lz-lws2_32-lole32 -lidn ftp opie.o mswindows.o openssl.o http ntlm.o../lib/libgnu.a

版权(C)2015免费软件基金会,公司许可证GPLV3+:GNU GPL版本3或更高版本。这是 自由软件:您可以自由更改和重新发布它。没有 保证,在法律允许的范围内

最初由Hrvoje Niksic撰写。请发送 错误报告和问题

这是命令生成的日志文件,显示高频请求:

--2016-04-20 22:01:17——解析www.gnu.org(www.gnu.org)。。。208.118.235.148连接到 www.gnu.org(www.gnu.org)| 208.118.235.148 |:443。。。有联系的。超文本传输协议 已发送请求,正在等待响应。。。301永久移动位置: [以下] --2016-04-20 22:01:19——重用现有的www.gnu.org:443连接。已发送HTTP请求, 等待答复。。。200确定长度:未指定[text/html]保存到: “www.gnu.org/software/wget/manual.html”

c:\Users\mds\Downloads\foo\wget -U "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2228.0 Safari/537.36" --recursive --level=0 --page-requisites --html-extension --convert-links --no-parent --restrict-file-names=windows  --wait=80 --random-wait --output-file="logfile.txt" https://www.gnu.org/software/wget/manual
2016-04-20 22:01:20(1.01 MB/s)- “www.gnu.org/software/wget/manual.html”已保存[9313]

加载robots.txt;请忽略错误。 --2016-04-20 22:01:20——重用现有的www.gnu.org:443连接。HTTP请求已发送,正在等待 回应。。。200确定长度:190[文本/普通]保存到: “www.gnu.org/robots.txt”

 0K .........                                              1.01M=0.009s
2016-04-20 22:01:21(873kb/s)-“www.gnu.org/robots.txt”已保存 [190/190]

--2016-04-20 22:01:21——重用现有的www.gnu.org:443连接。HTTP请求已发送,正在等待 回应。。。200确定长度:6746(6.6K)[文本/css]保存到: “www.gnu.org/combo.css”

 0K                                                       100%  873K=0s
2016-04-20 22:01:21(3.09 MB/s)-“www.gnu.org/combo.css”已保存 [6746/6746]

--2016-04-20 22:01:21——重用现有的www.gnu.org:443连接。HTTP请求已发送,正在等待响应。。。 200确定长度:1821(1.8K)[文本/css]保存到: “www.gnu.org/mini.css”

 0K ......                                                100% 3.09M=0.002s
2016-04-20 22:01:21(13.0 MB/s)-“www.gnu.org/mini.css”已保存 [1821/1821]

--2016-04-20 22:01:21——重用现有的www.gnu.org:443连接。HTTP请求已发送,正在等待 回应。。。200确定长度:14522(14K)[文本/css]保存到: “www.gnu.org/layout.m

===================

更新:

我试着使用一个旧的wget 1.1.16版本——同样的行为

我以调试模式运行它,它声称使用了15秒等待。但当我查看日志文件时,它似乎并没有延迟请求


此外,我的一个朋友在他的osx盒上运行了相同的命令,它显然在请求之间暂停了5秒。

我尝试了多种组合--wait和--random wait和-no-http keep-alive,但仍然有相同的行为。我也尝试了旧版本1.1.16,仍然演示了相同的问题。同样,这里,你解决了这个问题吗?,我只是用了…,等等flag@briankip对不起,我记不清了。但我想我从使用下载的win7二进制文件切换到使用cygwin中包含的WGET了?我在读旧笔记,这就是它的样子。
 0K .                                                     100% 13.0M=0s