Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/276.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 用于下载所有Ctrl+;Alt+;戴尔网络经济?_Python_Download_Web Scraping - Fatal编程技术网

Python 用于下载所有Ctrl+;Alt+;戴尔网络经济?

Python 用于下载所有Ctrl+;Alt+;戴尔网络经济?,python,download,web-scraping,Python,Download,Web Scraping,有人有吗?我试过Comicdownloader,但这只能让我下载最新的漫画,我对Python的理解还不够透彻,无法弄清楚如何将它改为下载所有的漫画 在简单检查之后,我发现所有的漫画都存储在/comics/as-jpg文件中 基于这种假设,在*nix机器上的shell中运行以下命令将下载所有漫画。文件名显然是YYYYMMDD格式的日期 $ for filename in $(seq 20020101 20090726); do wget http://www.ctrlaltdel-online.c

有人有吗?我试过Comicdownloader,但这只能让我下载最新的漫画,我对Python的理解还不够透彻,无法弄清楚如何将它改为下载所有的漫画

在简单检查之后,我发现所有的漫画都存储在/comics/as-jpg文件中

基于这种假设,在*nix机器上的shell中运行以下命令将下载所有漫画。文件名显然是YYYYMMDD格式的日期

$ for filename in $(seq 20020101 20090726); do wget http://www.ctrlaltdel-online.com/comics/"$filename".jpg; done

哦,这可能需要一段时间:)。

嗯,有几种方法。您可以查看漫画图像本身的URL,看看它们是否遵循某个模式,编写一个小脚本来生成与该模式匹配的URL,然后只需使用wget或类似的工具来下载它们。要学习必要的python,我建议使用。请特别关注组合字符串、字符串格式、字符串操作的方法,以便可以从组件字符串、数字等构建URL。这类项目可能是学习python的一个很好的借口,它可能会在将来帮助您完成其他事情。(而且很有趣!)

或者,我想人们以前也这样做过——几乎可以肯定,有一些应用程序可以根据图像的URL或URL的模式来做你想要的事情。看看周围

你可以写信给漫画的作者,询问他们是否可以批量购买,或者作为一本书。我想ctrl-alt-del足够流行,可以简单地吸收下载整个归档文件所增加的负载,但是较小的网站可能不喜欢它——尽管我认为它们不能真正阻止你或其他任何事情


至于你的问题,这个网站应该帮助你解决编程问题,帮助你解决你遇到的问题,并在一路上推动你——但如果你让他们只为你编写代码,大多数人都不会欣赏。学习一些python,自己尝试一下,如果遇到任何问题,请询问。

我使用带有修改的用户代理的urllib(因为Timmy阻止了原始代理)和BeautifulSoup。 无论如何,以下是日期生成器:

t1 = datetime.date(2002, 10, 22)
t2 = datetime.date.today()
while t2 > t1:
    t1 = t1 + datetime.date.resolution
    toon = t1.strftime("%Y%m%d")
    url1 = str(toon)
    main(url1)
我的main():看起来像这样(去掉“检查文件是否存在”部分)

“MeOpans()”看起来像这样:

class MeOpans(urllib.URLopener):
    version = 'Mozilla/5.0 (Windows; U; Windows NT 5.1; it; rv:1.8.1.11) Gecko/20071127 Firefox/2.0.0.11'

我认为cad标签用于计算机辅助设计,而不是Ctrl+Alt+Del comics;)请提供更多详细信息:漫画网站的URL,你对python了解多少?它必须是一个python脚本吗?它必须是Ctrl+Alt+Del吗?咳嗽piratebay cough mininova cough+1,因为OP信任你的解决方案,不接受你的答案。你可以使用curl:
curl来实现这一点http://ctrlaltdel-online.com/comics[20020101..20090726].jpg
这样做的好处是只与服务器建立了一个连接,而您的解决方案可能会被阻止并被视为垃圾邮件发送者爬行器。dalloliogm:我直接尝试了你的解决方案,但我遇到了一个错误。然后我试着用“-”(正如它在《男人》中所说的那样)而不是“.”。这会给我带来很多HTML(我想是index.HTML)。不过,关于垃圾邮件发送者蜘蛛,你可能是对的。如果内容的所有者阻止了你的用户代理,可能是因为他不希望你删除他的内容。。。。
class MeOpans(urllib.URLopener):
    version = 'Mozilla/5.0 (Windows; U; Windows NT 5.1; it; rv:1.8.1.11) Gecko/20071127 Firefox/2.0.0.11'