Linux 允许Wget仅下载应用程序类型的PDF
我正在窗户机器上使用wget。我只想要pdf文件。如果应用程序/类型为pdf。只允许下载 我正在使用这个命令Linux 允许Wget仅下载应用程序类型的PDF,linux,unix,web-crawler,wget,Linux,Unix,Web Crawler,Wget,我正在窗户机器上使用wget。我只想要pdf文件。如果应用程序/类型为pdf。只允许下载 我正在使用这个命令 wget --accept pdf www.google.com 它正在下载谷歌的索引页面 长度:19404(19K)[文本/html]保存到: `索引。html@gfe_rd=cr&ei=5O8jVLycNuvA8gftoYGIBg' 我不想允许。如果只有pdf 有什么想法吗 谢谢通常情况下 wget--header='Accept:application/pdf'www.goog
wget --accept pdf www.google.com
它正在下载谷歌的索引页面
长度:19404(19K)[文本/html]保存到:
`索引。html@gfe_rd=cr&ei=5O8jVLycNuvA8gftoYGIBg'
我不想允许。如果只有pdf
有什么想法吗
谢谢通常情况下 wget--header='Accept:application/pdf'www.google.com 但是google.com似乎忽略了Accept:header,所以你可能想 wget--debug--header='Accept:application/pdf'www.google.com 2>&1 | grep'内容类型:application/pdf'
并测试该命令的结果。它仍然在下载html文件,正如我所说的,Google忽略了标题。您的工作是检查上述命令的状态,如果状态为“未成功”,则忽略该文件。没有别的办法。对于正确处理Accept标头的服务器,它们只发送PDF(如果PDF资源存在)。