合并这些wget&;用于递归下载站点地图的egrep命令
我正试图找到一种方法,使这些工作在一起。然而,我可以使用Wget for Windows成功运行此功能:合并这些wget&;用于递归下载站点地图的egrep命令,grep,cygwin,wget,Grep,Cygwin,Wget,我正试图找到一种方法,使这些工作在一起。然而,我可以使用Wget for Windows成功运行此功能: wget --html-extension -r http://www.sitename.com 这将下载我的服务器上从根域链接到目录的每个文件。我宁愿只下载我的站点地图中的页面。为此,我发现了以下使用CygWin的技巧: wget --quiet https://www.sitename.com/sitemap.xml --output-document - | egrep -o "ht
wget --html-extension -r http://www.sitename.com
这将下载我的服务器上从根域链接到目录的每个文件。我宁愿只下载我的站点地图中的页面。为此,我发现了以下使用CygWin的技巧:
wget --quiet https://www.sitename.com/sitemap.xml --output-document - | egrep -o
"http://www\.sitename\.com[^<]+" | wget --spider -i - --wait 1
wget——安静https://www.sitename.com/sitemap.xml --输出文档-| egrep-o
"http://www\.sitename\.com[^如果查看wget
的手册页,您将看到--spider
条目如下所示:
--spider
When invoked with this option, Wget will behave as a Web spider, which means that it will not download the pages, just check that they are there.
要真正下载该文件,只需从命令中删除--spider
wget --quiet https://www.sitename.com/sitemap.xml --output-document - | egrep -o \
"https?://www\.sitename\.com[^<]+" | wget -i - --wait 1
wget——安静https://www.sitename.com/sitemap.xml --输出文档-| egrep-o\
“https?://www.sitename.com[^我尝试了所有方法,但是,谢谢!今天将测试此方法。您添加“”有什么原因吗?”在测试该命令时,在egrep https模式?@Whitesky中,我遇到了一些问题,站点无法保持一致的http://
或https://
方案,因此我添加了s?
,这意味着s
是可选的。