使用wget仅下载纯xhtml格式的dokuwiki页面

使用wget仅下载纯xhtml格式的dokuwiki页面,wget,sh,dokuwiki,Wget,Sh,Dokuwiki,我目前正在修改脱机dokuwiki[1]shell脚本,以获取应用程序的最新文档,以便自动嵌入到该应用程序的实例中。除了当前的形式外,它还可以很好地使用每个页面的三个版本: 包括页眉和页脚的完整页面 只包含没有页眉和页脚的内容 原始wiki语法 实际上我只对2感兴趣。这是通过中的html标记从主页链接到的,如下所示: <link rel="alternate" type="text/html" title="Plain HTML" href="/dokuwiki/doku.php?do=

我目前正在修改脱机dokuwiki[1]shell脚本,以获取应用程序的最新文档,以便自动嵌入到该应用程序的实例中。除了当前的形式外,它还可以很好地使用每个页面的三个版本:

  • 包括页眉和页脚的完整页面
  • 只包含没有页眉和页脚的内容
  • 原始wiki语法
  • 实际上我只对2感兴趣。这是通过
    中的html
    标记从主页链接到的,如下所示:

    <link rel="alternate" type="text/html" title="Plain HTML" 
    href="/dokuwiki/doku.php?do=export_xhtml&amp;id=documentation:index" /> 
    
    
    
    并且与主要wiki页面的url相同,只是它们在查询字符串中包含“do=export\u xhtml”。有没有办法指示wget只下载这些版本,或者自动将“&do=export\u xhtml”添加到它后面的任何链接的末尾?如果是这样,这将是一个很大的帮助


    [1] (作者:samlt)

    DokuWiki也接受do参数作为HTTP头。您可以使用参数--header“X-DokuWiki-Do:export\u xhtml”运行wget

    我开始怀疑解决方案可能是只下载内容页,然后使用sed对其进行解析以提取所有url,包括“Do=export\u xhtml”,然后递归地对如此提取的每个url执行相同的操作。但我更希望wget能被指示首先获取简单的html版本,或者在可能的情况下自动将查询字符串添加到每个url中。如果您包含xml或xhtml标记以及某种处理工具,XMLSTARTET、xslt、awk、perl(而不是sed),您可能会得到更多反馈(有几十篇关于为什么sed不能进行html解析的帖子,忽略它们会有危险!;-)谢谢,这正是我一直在寻找的解决方案。为了让它发挥作用,我还必须添加“*do=export\u xhtml,*do=export\u raw”To wgets'--reject”参数。