Html Pavuk downloader销毁来自特定服务器的图像
我经常抓取网站。但是,pavuk从一个特定服务器下载的图像已损坏!它们似乎短了几个字节:Html Pavuk downloader销毁来自特定服务器的图像,html,linux,wget,pavuk,Html,Linux,Wget,Pavuk,我经常抓取网站。但是,pavuk从一个特定服务器下载的图像已损坏!它们似乎短了几个字节: /usr/bin/pavuk http://files.zemedelska-krajina.cz/200000061-0970a0a6ab/50000000.jpg 输出是 URL[ 1]: 1(0) of 1 http://files.zemedelska-krajina.cz/200000061-0970a0a6ab/50000000.jpg Starting time : 1
/usr/bin/pavuk http://files.zemedelska-krajina.cz/200000061-0970a0a6ab/50000000.jpg
输出是
URL[ 1]: 1(0) of 1 http://files.zemedelska-krajina.cz/200000061-0970a0a6ab/50000000.jpg
Starting time : 19:14:20
S: 31256 B [R: 617.0 kB/s] [ET: 0:00:00]
Received Encoded file but decoding not allowed (untouched)
Ending time : 19:14:20
download: OK
pavuk下载的图像只有31256字节,而原始图像只有31331字节!问题在哪里
关键可能在于收到的编码文件中的消息,但不允许解码。不确定这意味着什么,但即使添加-Enc选项也不能解决问题
我在Debian 7哮喘病上使用pavuk-0.9.35。我将感谢您的建议。也许服务器声称要对图像进行gzip,但事实上并非如此。你试过了吗?没有?你是对的@James!图像是gzip压缩的!诺肯帮了忙!哦,不@James,-noEnc只在下载单个图像时工作,但在下载整个网站时会中断…在-noEnc/-Enc的详细信息下搜索它,它谈到了中断的服务器。我相信你正在处理这样一个服务器。您可能必须仅对某些有问题的图像或资源有选择地启用-noEnc。@可以这样做吗?如何仅对某些文件应用-noEnc?