合并这些wget&;用于递归下载站点地图的egrep命令

合并这些wget&;用于递归下载站点地图的egrep命令,grep,cygwin,wget,Grep,Cygwin,Wget,我正试图找到一种方法,使这些工作在一起。然而,我可以使用Wget for Windows成功运行此功能: wget --html-extension -r http://www.sitename.com 这将下载我的服务器上从根域链接到目录的每个文件。我宁愿只下载我的站点地图中的页面。为此,我发现了以下使用CygWin的技巧: wget --quiet https://www.sitename.com/sitemap.xml --output-document - | egrep -o "ht

我正试图找到一种方法,使这些工作在一起。然而,我可以使用Wget for Windows成功运行此功能:

wget --html-extension -r http://www.sitename.com
这将下载我的服务器上从根域链接到目录的每个文件。我宁愿只下载我的站点地图中的页面。为此,我发现了以下使用CygWin的技巧:

wget --quiet https://www.sitename.com/sitemap.xml --output-document - | egrep -o
"http://www\.sitename\.com[^<]+" | wget --spider -i - --wait 1
wget——安静https://www.sitename.com/sitemap.xml --输出文档-| egrep-o

"http://www\.sitename\.com[^如果查看
wget
的手册页,您将看到
--spider
条目如下所示:

--spider
       When invoked with this option, Wget will behave as a Web spider, which means that it will not download the pages, just check that they are there.
要真正下载该文件,只需从命令中删除
--spider

wget --quiet https://www.sitename.com/sitemap.xml --output-document - | egrep -o \
"https?://www\.sitename\.com[^<]+" | wget -i - --wait 1
wget——安静https://www.sitename.com/sitemap.xml --输出文档-| egrep-o\

“https?://www.sitename.com[^我尝试了所有方法,但是,谢谢!今天将测试此方法。您添加“”有什么原因吗?”在测试该命令时,在egrep https模式?@Whitesky中,我遇到了一些问题,站点无法保持一致的
http://
https://
方案,因此我添加了
s?
,这意味着
s
是可选的。