Linux 使用wget和cron下载网页_Linux_Cron_Wget_Tar

Linux 使用wget和cron下载网页

linux cron

Linux 使用wget和cron下载网页,linux,cron,wget,tar,Linux,Cron,Wget,Tar,好的，我知道我可以使用： wget -r <website> > <file> wget-r> 获取网页并保存它。我的问题是，我将如何使用cron和wget每小时甚至每分钟获取一个网页，然后将它们保存到一个文件夹中，对其进行压缩和tarball处理，然后继续添加到其中以备日后查看我知道我可以手动完成这项工作，我的目标基本上是每10-20分钟下载一次，大约4个小时（如果时间更长也没关系），然后将所有内容附加到一个好的目录中，然后压缩所说的目录以节省空间，并在当天

好的，我知道我可以使用：

wget -r <website> > <file>

wget-r>

获取网页并保存它。我的问题是，我将如何使用cron和wget每小时甚至每分钟获取一个网页，然后将它们保存到一个文件夹中，对其进行压缩和tarball处理，然后继续添加到其中以备日后查看

我知道我可以手动完成这项工作，我的目标基本上是每10-20分钟下载一次，大约4个小时（如果时间更长也没关系），然后将所有内容附加到一个好的目录中，然后压缩所说的目录以节省空间，并在当天晚些时候检查它们。

编辑cron表

crontab -e

您可以添加这样的条目

0,20,40 * * * *  wget URL ~/files/file-`date > '+%m%d%y%H%M'`.html &

zip foo.zip file1 file2 allfile*.html

每20分钟下载/保存一次文件

这里是一个关于crontab表达式的示例，您可以调整这些值

要自动对文件进行TAR，crontab会稍微复杂一些：

0,20,40 * * * *  wget URL > ~/files`date '+%m%d%y'`/file-`date '+%H%M'`.html &
* 12 * * *       tar cvf ~/archive-`date '+%m%d%y'`.tar ~/files`date '+%m%d%y'`

这将在中午进行，如果您想在晚上进行，则更为复杂，因为您需要在前一天进行TAR，但我认为通过这一点，您会明白这一点。

编辑cron表

crontab -e

您可以添加这样的条目

0,20,40 * * * *  wget URL ~/files/file-`date > '+%m%d%y%H%M'`.html &

zip foo.zip file1 file2 allfile*.html

每20分钟下载/保存一次文件

这里是一个关于crontab表达式的示例，您可以调整这些值

要自动对文件进行TAR，crontab会稍微复杂一些：

0,20,40 * * * *  wget URL > ~/files`date '+%m%d%y'`/file-`date '+%H%M'`.html &
* 12 * * *       tar cvf ~/archive-`date '+%m%d%y'`.tar ~/files`date '+%m%d%y'`

这将在中午进行，如果您想在晚上进行，则更为复杂，因为您需要在前一天进行焦油处理，但我认为，通过这一点，您将获得想法。

或者不使用cron：

for i in `seq 1 10`; do wget -r http://google.de -P $(date +%k_%M) && sleep 600; done

每10分钟10次

编辑：像这样使用zip

0,20,40 * * * *  wget URL ~/files/file-`date > '+%m%d%y%H%M'`.html &

zip foo.zip file1 file2 allfile*.html

或者没有cron：

for i in `seq 1 10`; do wget -r http://google.de -P $(date +%k_%M) && sleep 600; done

每10分钟10次

编辑：像这样使用zip

0,20,40 * * * *  wget URL ~/files/file-`date > '+%m%d%y%H%M'`.html &

zip foo.zip file1 file2 allfile*.html

你能再解释一下你的最终结果是什么吗？首先，

-r

表示您要保存多个页面-这是您想要的还是不想要的？如果是这样，你不应该说“网页”，而应该说“网页”，只是为了清楚。我假设有一页。比如说，你在上午10点、上午11点和下午12点下载一个页面-你想要什么-一组文件（

wp-10am.htm

，

wp-11am.htm

，

wp-12pm.htm

）或者其他什么？我第一次主要是摆弄wget，而不是抓取一些快速文件。主要是我想做的，就是定期抓取一个网页，并将其保存为~/web_logs/中的index..htm，然后我会回答zipvictor hugo刚才的第一部分。下一部分是gz/zip。你能再解释一下你的最终结果吗？首先，

-r

wp-10am.htm

，

wp-11am.htm

，

wp-12pm.htm

）或者其他什么？我第一次主要是摆弄wget，而不是抓取一些快速文件。主要是我想做的，就是定期抓取一个网页，并将其保存为~/web_logs/中的index..htm，然后我会回答zipvictor hugo刚才的第一部分。下一部分是gz/zip。之前没有注意到，但实际上是0,20,40****wget URL>~/files/file-

date'+%m%d%y%H%m'

.html&错过了>，想知道为什么它不起作用：PDidn以前没有注意到，但实际上是0,20,40****wget URL>~/files/file-

date'+%m%d%y%H%m'

.html&错过了>，我想知道为什么它不起作用：P