使用wget仅下载纯xhtml格式的dokuwiki页面_Wget_Sh_Dokuwiki

使用wget仅下载纯xhtml格式的dokuwiki页面

使用wget仅下载纯xhtml格式的dokuwiki页面,wget,sh,dokuwiki,Wget,Sh,Dokuwiki,我目前正在修改脱机dokuwiki[1]shell脚本，以获取应用程序的最新文档，以便自动嵌入到该应用程序的实例中。除了当前的形式外，它还可以很好地使用每个页面的三个版本：包括页眉和页脚的完整页面只包含没有页眉和页脚的内容原始wiki语法实际上我只对2感兴趣。这是通过中的html标记从主页链接到的，如下所示： <link rel="alternate" type="text/html" title="Plain HTML" href="/dokuwiki/doku.php?do=

我目前正在修改脱机dokuwiki[1]shell脚本，以获取应用程序的最新文档，以便自动嵌入到该应用程序的实例中。除了当前的形式外，它还可以很好地使用每个页面的三个版本：

包括页眉和页脚的完整页面

只包含没有页眉和页脚的内容

原始wiki语法

实际上我只对2感兴趣。这是通过

中的html

标记从主页链接到的，如下所示：

<link rel="alternate" type="text/html" title="Plain HTML" 
href="/dokuwiki/doku.php?do=export_xhtml&amp;id=documentation:index" />

并且与主要wiki页面的url相同，只是它们在查询字符串中包含“do=export\u xhtml”。有没有办法指示wget只下载这些版本，或者自动将“&do=export\u xhtml”添加到它后面的任何链接的末尾？如果是这样，这将是一个很大的帮助

[1] （作者：samlt）

DokuWiki也接受do参数作为HTTP头。您可以使用参数--header“X-DokuWiki-Do:export\u xhtml”运行wget

我开始怀疑解决方案可能是只下载内容页，然后使用sed对其进行解析以提取所有url，包括“Do=export\u xhtml”，然后递归地对如此提取的每个url执行相同的操作。但我更希望wget能被指示首先获取简单的html版本，或者在可能的情况下自动将查询字符串添加到每个url中。如果您包含xml或xhtml标记以及某种处理工具，XMLSTARTET、xslt、awk、perl（而不是sed），您可能会得到更多反馈（有几十篇关于为什么sed不能进行html解析的帖子，忽略它们会有危险！；-）谢谢，这正是我一直在寻找的解决方案。为了让它发挥作用，我还必须添加“*do=export\u xhtml，*do=export\u raw”To wgets'--reject”参数。