Ubuntu 抓取一本每日漫画并将其储存在当地_Ubuntu_Scheduled Tasks_Wget_Copying

Ubuntu 抓取一本每日漫画并将其储存在当地

ubuntu

Ubuntu 抓取一本每日漫画并将其储存在当地,ubuntu,scheduled-tasks,wget,copying,Ubuntu,Scheduled Tasks,Wget,Copying,我想从www.explosm.net/comics复制每日漫画，并将其存储在本地文件夹中漫画有唯一的名称，并根据创作者的不同存储在多个位置像这样： www.explosm.net/db/files/Comics/Rob/comic1.png www.explosm.net/db/files/Comics/Dave/comic2.png 但是，每天的漫画都可以通过相同的url（www.explosm.net/comics）获得，该url会将您重定向到可用的最新漫画。不过，我不确定这是否有用

我想从www.explosm.net/comics复制每日漫画，并将其存储在本地文件夹中

漫画有唯一的名称，并根据创作者的不同存储在多个位置

像这样：

www.explosm.net/db/files/Comics/Rob/comic1.png
www.explosm.net/db/files/Comics/Dave/comic2.png

但是，每天的漫画都可以通过相同的url（www.explosm.net/comics）获得，该url会将您重定向到可用的最新漫画。不过，我不确定这是否有用

为了实现这一点，我在使用wget命令和cron时经历了一点，但我缺乏知识并没有产生任何令人满意的结果

提前谢谢。

您可能想了解一下。您需要的是一个脚本，当您请求www.explosm.net/comics时，该脚本调用cURL来获取服务器提供的页面源代码。然后解析返回的数据，查找显示漫画的

img

标记

在您拥有所讨论的

img

标记的

src

属性后，您可以使用cURL发出另一个请求，以实际下载图像并将返回的数据保存到本地文件中

看起来，您正在寻找的实际漫画图像的来源是以

http://www.explosm.net/db/files/Comics

因此，您可以使用以下正则表达式来确定要下载的图像的URL

src\=\"(http:\/\/www\.explosm\.net\/db\/files\/Comics\/[^"]*)\"

URL将成为比赛的第一组。

好的。我试着观察卷发，但第一眼看到它时，它似乎远远超出了我的想象。我可以补充一点，我对linux相当陌生。不过，如果我能理解你所指的，那可能正是我想要的。嗯，你有编程方面的知识吗？很抱歉回答得太晚了。是的，我有一些（HTML/CSS/PHP，我知道regex是如何工作的）。在我们说话的时候尝试扩展我的linux。尽管如此，我总是对新事物持开放态度——这就是为什么我想尝试这个。我真的不知道从哪里开始。更新：找到了如何使用curl。然而，当我尝试抓取（也尝试了漫画/new/）时，它不起作用。然而，如果我尝试抓取（最新的时事漫画），它会起作用。我怎样才能确保我总是抓取最新的页面？@Habitates，首先，如果你懂一点PHP，你可以使用并创建一个PHP脚本来完成你想要的。然后，您可以每天调用php脚本来获取最新的漫画。至于有些URL不工作的原因，可能是因为不工作的是重定向，而您还没有指定cURL跟随重定向的选项。看见