Ubuntu 抓取一本每日漫画并将其储存在当地

Ubuntu 抓取一本每日漫画并将其储存在当地,ubuntu,scheduled-tasks,wget,copying,Ubuntu,Scheduled Tasks,Wget,Copying,我想从www.explosm.net/comics复制每日漫画,并将其存储在本地文件夹中 漫画有唯一的名称,并根据创作者的不同存储在多个位置 像这样: www.explosm.net/db/files/Comics/Rob/comic1.png www.explosm.net/db/files/Comics/Dave/comic2.png 但是,每天的漫画都可以通过相同的url(www.explosm.net/comics)获得,该url会将您重定向到可用的最新漫画。不过,我不确定这是否有用

我想从www.explosm.net/comics复制每日漫画,并将其存储在本地文件夹中

漫画有唯一的名称,并根据创作者的不同存储在多个位置

像这样:

  • www.explosm.net/db/files/Comics/Rob/comic1.png
  • www.explosm.net/db/files/Comics/Dave/comic2.png
但是,每天的漫画都可以通过相同的url(www.explosm.net/comics)获得,该url会将您重定向到可用的最新漫画。不过,我不确定这是否有用

为了实现这一点,我在使用wget命令和cron时经历了一点,但我缺乏知识并没有产生任何令人满意的结果


提前谢谢。

您可能想了解一下。您需要的是一个脚本,当您请求www.explosm.net/comics时,该脚本调用cURL来获取服务器提供的页面源代码。然后解析返回的数据,查找显示漫画的
img
标记

在您拥有所讨论的
img
标记的
src
属性后,您可以使用cURL发出另一个请求,以实际下载图像并将返回的数据保存到本地文件中

看起来,您正在寻找的实际漫画图像的来源是以
http://www.explosm.net/db/files/Comics
因此,您可以使用以下正则表达式来确定要下载的图像的URL

src\=\"(http:\/\/www\.explosm\.net\/db\/files\/Comics\/[^"]*)\"

URL将成为比赛的第一组。

好的。我试着观察卷发,但第一眼看到它时,它似乎远远超出了我的想象。我可以补充一点,我对linux相当陌生。不过,如果我能理解你所指的,那可能正是我想要的。嗯,你有编程方面的知识吗?很抱歉回答得太晚了。是的,我有一些(HTML/CSS/PHP,我知道regex是如何工作的)。在我们说话的时候尝试扩展我的linux。尽管如此,我总是对新事物持开放态度——这就是为什么我想尝试这个。我真的不知道从哪里开始。更新:找到了如何使用curl。然而,当我尝试抓取(也尝试了漫画/new/)时,它不起作用。然而,如果我尝试抓取(最新的时事漫画),它会起作用。我怎样才能确保我总是抓取最新的页面?@Habitates,首先,如果你懂一点PHP,你可以使用并创建一个PHP脚本来完成你想要的。然后,您可以每天调用php脚本来获取最新的漫画。至于有些URL不工作的原因,可能是因为不工作的是重定向,而您还没有指定cURL跟随重定向的选项。看见