Linux 使用wget和cron下载网页

Linux 使用wget和cron下载网页,linux,cron,wget,tar,Linux,Cron,Wget,Tar,好的,我知道我可以使用: wget -r <website> > <file> wget-r> 获取网页并保存它。我的问题是,我将如何使用cron和wget每小时甚至每分钟获取一个网页,然后将它们保存到一个文件夹中,对其进行压缩和tarball处理,然后继续添加到其中以备日后查看 我知道我可以手动完成这项工作,我的目标基本上是每10-20分钟下载一次,大约4个小时(如果时间更长也没关系),然后将所有内容附加到一个好的目录中,然后压缩所说的目录以节省空间,并在当天

好的,我知道我可以使用:

wget -r <website> > <file>
wget-r>
获取网页并保存它。我的问题是,我将如何使用cron和wget每小时甚至每分钟获取一个网页,然后将它们保存到一个文件夹中,对其进行压缩和tarball处理,然后继续添加到其中以备日后查看

我知道我可以手动完成这项工作,我的目标基本上是每10-20分钟下载一次,大约4个小时(如果时间更长也没关系),然后将所有内容附加到一个好的目录中,然后压缩所说的目录以节省空间,并在当天晚些时候检查它们。

编辑cron表

crontab -e
您可以添加这样的条目

0,20,40 * * * *  wget URL ~/files/file-`date > '+%m%d%y%H%M'`.html &
zip foo.zip file1 file2 allfile*.html
每20分钟下载/保存一次文件

这里是一个关于crontab表达式的示例,您可以调整这些值

要自动对文件进行TAR,crontab会稍微复杂一些:

0,20,40 * * * *  wget URL > ~/files`date '+%m%d%y'`/file-`date '+%H%M'`.html &
* 12 * * *       tar cvf ~/archive-`date '+%m%d%y'`.tar ~/files`date '+%m%d%y'`
这将在中午进行,如果您想在晚上进行,则更为复杂,因为您需要在前一天进行TAR,但我认为通过这一点,您会明白这一点。

编辑cron表

crontab -e
您可以添加这样的条目

0,20,40 * * * *  wget URL ~/files/file-`date > '+%m%d%y%H%M'`.html &
zip foo.zip file1 file2 allfile*.html
每20分钟下载/保存一次文件

这里是一个关于crontab表达式的示例,您可以调整这些值

要自动对文件进行TAR,crontab会稍微复杂一些:

0,20,40 * * * *  wget URL > ~/files`date '+%m%d%y'`/file-`date '+%H%M'`.html &
* 12 * * *       tar cvf ~/archive-`date '+%m%d%y'`.tar ~/files`date '+%m%d%y'`
这将在中午进行,如果您想在晚上进行,则更为复杂,因为您需要在前一天进行焦油处理,但我认为,通过这一点,您将获得想法。

或者不使用cron:

for i in `seq 1 10`; do wget -r http://google.de -P $(date +%k_%M) && sleep 600; done
每10分钟10次

编辑:像这样使用zip

0,20,40 * * * *  wget URL ~/files/file-`date > '+%m%d%y%H%M'`.html &
zip foo.zip file1 file2 allfile*.html
或者没有cron:

for i in `seq 1 10`; do wget -r http://google.de -P $(date +%k_%M) && sleep 600; done
每10分钟10次

编辑:像这样使用zip

0,20,40 * * * *  wget URL ~/files/file-`date > '+%m%d%y%H%M'`.html &
zip foo.zip file1 file2 allfile*.html

你能再解释一下你的最终结果是什么吗?首先,
-r
表示您要保存多个页面-这是您想要的还是不想要的?如果是这样,你不应该说“网页”,而应该说“网页”,只是为了清楚。我假设有一页。比如说,你在上午10点、上午11点和下午12点下载一个页面-你想要什么-一组文件(
wp-10am.htm
wp-11am.htm
wp-12pm.htm
)或者其他什么?我第一次主要是摆弄wget,而不是抓取一些快速文件。主要是我想做的,就是定期抓取一个网页,并将其保存为~/web_logs/中的index..htm,然后我会回答zipvictor hugo刚才的第一部分。下一部分是gz/zip。你能再解释一下你的最终结果吗?首先,
-r
表示您要保存多个页面-这是您想要的还是不想要的?如果是这样,你不应该说“网页”,而应该说“网页”,只是为了清楚。我假设有一页。比如说,你在上午10点、上午11点和下午12点下载一个页面-你想要什么-一组文件(
wp-10am.htm
wp-11am.htm
wp-12pm.htm
)或者其他什么?我第一次主要是摆弄wget,而不是抓取一些快速文件。主要是我想做的,就是定期抓取一个网页,并将其保存为~/web_logs/中的index..htm,然后我会回答zipvictor hugo刚才的第一部分。下一部分是gz/zip。之前没有注意到,但实际上是0,20,40****wget URL>~/files/file-
date'+%m%d%y%H%m'
.html&错过了>,想知道为什么它不起作用:PDidn以前没有注意到,但实际上是0,20,40****wget URL>~/files/file-
date'+%m%d%y%H%m'
.html&错过了>,我想知道为什么它不起作用:P