解析/迭代html源代码以仅使用wget访问特定文件

解析/迭代html源代码以仅使用wget访问特定文件,html,bash,recursion,scripting,wget,Html,Bash,Recursion,Scripting,Wget,好吧,这可能已经被问到了,但经过几个小时的搜索,我没有找到任何可行的,所以 比方说,有一个名为index.html的页面,其中包含指向不同页面的多个超链接。 这些页面包含要下载的文件 e、 g ... ... 第1页可能是这样的 <!-- page1.html --> ... <a href="page1file.pdf">Download</a> ... ... ... 现在我想下载所有的*.pdf文件。是否有可能仅使用wget执行此操作,或者我需

好吧,这可能已经被问到了,但经过几个小时的搜索,我没有找到任何可行的,所以

比方说,有一个名为
index.html
的页面,其中包含指向不同页面的多个超链接。 这些页面包含要下载的文件

e、 g


...
...
第1页可能是这样的

<!-- page1.html -->
...
<a href="page1file.pdf">Download</a>
...

...
...
现在我想下载所有的
*.pdf
文件。是否有可能仅使用wget执行此操作,或者我需要为此创建一个脚本


提前感谢您。

不确定是否只能使用wget,但此循环应该可以:

for i in $(grep "^<a" index.html | cut -d'"' -f2); do file=$(grep "^<a" $i | cut -d'"' -f2); wget $i/$file ; done

对于i,单位为$(grep)^不确定是否只能使用wget,但此循环应该可以:

for i in $(grep "^<a" index.html | cut -d'"' -f2); do file=$(grep "^<a" $i | cut -d'"' -f2); wget $i/$file ; done

以美元表示的i的
(grep)^我们是否可以说每个文件都可以使用以下URL语法下载:
pageX.html/pageXfile.pdf
?遗憾的是,不是。文件名在任何情况下都是唯一的。我们是否可以说每个文件都可以使用以下URL语法下载:
pageX.html/pageXfile.pdf
?遗憾的是,不是。文件名在任何情况下都是唯一的。