Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/unix/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Linux 允许Wget仅下载应用程序类型的PDF_Linux_Unix_Web Crawler_Wget - Fatal编程技术网

Linux 允许Wget仅下载应用程序类型的PDF

Linux 允许Wget仅下载应用程序类型的PDF,linux,unix,web-crawler,wget,Linux,Unix,Web Crawler,Wget,我正在窗户机器上使用wget。我只想要pdf文件。如果应用程序/类型为pdf。只允许下载 我正在使用这个命令 wget --accept pdf www.google.com 它正在下载谷歌的索引页面 长度:19404(19K)[文本/html]保存到: `索引。html@gfe_rd=cr&ei=5O8jVLycNuvA8gftoYGIBg' 我不想允许。如果只有pdf 有什么想法吗 谢谢通常情况下 wget--header='Accept:application/pdf'www.goog

我正在窗户机器上使用wget。我只想要pdf文件。如果应用程序/类型为pdf。只允许下载

我正在使用这个命令

wget  --accept pdf www.google.com
它正在下载谷歌的索引页面

长度:19404(19K)[文本/html]保存到: `索引。html@gfe_rd=cr&ei=5O8jVLycNuvA8gftoYGIBg'

我不想允许。如果只有pdf

有什么想法吗


谢谢

通常情况下

wget--header='Accept:application/pdf'www.google.com

但是google.com似乎忽略了Accept:header,所以你可能想

wget--debug--header='Accept:application/pdf'www.google.com 2>&1 | grep'内容类型:application/pdf'


并测试该命令的结果。

它仍然在下载html文件,正如我所说的,Google忽略了标题。您的工作是检查上述命令的状态,如果状态为“未成功”,则忽略该文件。没有别的办法。对于正确处理Accept标头的服务器,它们只发送PDF(如果PDF资源存在)。