Pdf Wget文件格式

Pdf Wget文件格式,pdf,wget,Pdf,Wget,我必须下载所有网站内容,然后解析下载文件夹中的*.pdf文件。我下载的网站使用wget-r-没有家长http://www.example.com/ 但问题是,有时链接看起来像这样 http://www.foodmanufuture.eu/dpubs?f=K20 下载的下载pdf文件名为dpubs?f=K20,未指定文件格式,它看起来不像dpubs?f=K20.pdf,是否有方法检查此文件夹中有多少pdf文件?您可以使用该命令 file filename 像这样: file pdfurl-gu

我必须下载所有网站内容,然后解析下载文件夹中的*.pdf文件。我下载的网站使用wget-r-没有家长http://www.example.com/ 但问题是,有时链接看起来像这样

http://www.foodmanufuture.eu/dpubs?f=K20

下载的下载pdf文件名为dpubs?f=K20,未指定文件格式,它看起来不像dpubs?f=K20.pdf,是否有方法检查此文件夹中有多少pdf文件?

您可以使用该命令

file filename
像这样:

file pdfurl-guide
pdfurl-guide: PDF document, version 1.5
您可以使用:

file * 
要确切知道文件夹中的哪些文件是pdf文件,您是否尝试过-content disposition标志?从手册页:

如果该选项设置为on,则启用对内容处置头的实验性非完全功能支持。目前,这可能会导致HEAD请求到服务器的额外往返,并且已知会出现一些错误,这就是当前默认情况下未启用该功能的原因。此选项对于某些文件下载CGI程序非常有用,这些程序使用内容处置头来描述下载文件的名称


因此,它尝试向服务器请求文件名。我尝试了你提供的URL,它似乎很有效。

太好了!非常感谢。