Curl 如何从livejournal博客下载所有条目?
我正在尝试下载一个完整的livejournal博客,以便能够完全在线、离线地查看它。因此,所有链接到etc的图像都应该下载并重新链接 页面开始于runawaytoday.livejournal.com/295820.html,结束于453506.html,增量不均匀 我试过:Curl 如何从livejournal博客下载所有条目?,curl,wget,Curl,Wget,我正在尝试下载一个完整的livejournal博客,以便能够完全在线、离线地查看它。因此,所有链接到etc的图像都应该下载并重新链接 页面开始于runawaytoday.livejournal.com/295820.html,结束于453506.html,增量不均匀 我试过: wget --wait=2 --limit-rate=400K -r -k -p -U Mozilla http://runawaytoday.livejournal.com/ 由于robots.txt文件而停止 我试图
wget --wait=2 --limit-rate=400K -r -k -p -U Mozilla http://runawaytoday.livejournal.com/
由于robots.txt文件而停止
我试图反复浏览页面,但无法正确完成:
wget -p -k ${http://runawaytoday.livejournal.com/}{295820..453506}.html
给我“-bash:/usr/local/bin/wget:参数列表太长”
任何帮助都将不胜感激
我使用的是osx 10.9和bash 3.2.53版,您可以忽略robots.txt(尽管这可能不是最好的主意) 因此,您的命令可能如下所示:
wget-e robots=off--random wait-U Mozilla--mirror-p--convert linkshttp://runawaytoday.livejournal.com/
--random wait
选择0.5到2秒之间的随机等待时间。您可以忽略robots.txt(尽管这可能不是最好的主意)
因此,您的命令可能如下所示:
wget-e robots=off--random wait-U Mozilla--mirror-p--convert linkshttp://runawaytoday.livejournal.com/
--随机等待
选择0.5到2秒之间的随机等待时间