Python 使用终端下载所有ctrl-alt-del网络喜剧_Python_Download_Web Scraping

Python 使用终端下载所有ctrl-alt-del网络喜剧

python download web-scraping

Python 使用终端下载所有ctrl-alt-del网络喜剧,python,download,web-scraping,Python,Download,Web Scraping,我尝试使用以下命令下载ctrl-alt-del漫画 $ for filename in $(seq 20021023 20100503); do wget http://www.ctrlaltdel-online.com/comics/"$filename".jpg; done 我得到以下错误代码，bash：意外标记“do”附近的语法错误我也尝试过使用cURL，使用这个命令 curl http://ctrlaltdel-online.com/comics[20021023..20100503

我尝试使用以下命令下载ctrl-alt-del漫画

$ for filename in $(seq 20021023 20100503); do wget http://www.ctrlaltdel-online.com/comics/"$filename".jpg; done

我得到以下错误代码，

bash：意外标记“do”附近的语法错误

我也尝试过使用cURL，使用这个命令

curl http://ctrlaltdel-online.com/comics[20021023..20100503].jpg

我得到以下错误代码，

curl:（3）[globbing]错误：37号位置后的范围规格不正确

出了什么问题，我该如何修复它？

正如msw所指出的，在网站上爬行可能是非法的、不道德的、激怒作者的，也可能是完全没有问题的。请负责任地使用您的脚本能力，并且永远（tm）。请求许可肯定是一件好事

请注意，ctrlaltdel-online.com web服务器似乎使用正常的wget用户代理字符串向wget返回HTTP 403禁止。模仿Firefox-ish似乎绕过了这一点（尽管我打赌他们只是明确拒绝wget，这表明他们很可能禁止这种访问）

将365替换为更大的数字，可以追溯到一年多以前。wget输出可能很烦人，因此您可以传递它-q使其安静。

我正在编写相同的脚本。给你

import sys
import re
import urllib
import os
import ctypes
from urllib import FancyURLopener

class MyOpener(FancyURLopener):
    version = 'Mozilla/5.0 (Windows; U; Windows NT 5.1; it;rv:1.8.1.11)Gecko/20071127 Firefox/2.0.0.11'


def getlinks(add,m,opener):
    ufile=opener.open(add)
    html=ufile.read()
    dates=re.findall('href="/cad/(\d+)">',html)
    links=[]
    for date in dates:
            if date[4:6]==m:
            links.append('http://www.cad-comic.com/cad/'+date)
    links.reverse()
    print 'Total {} comics found.'.format(len(links))
    #print len(links)
    return links

def getstriplink(link,opener):
    ufile=opener.open(link)
    html=ufile.read()
    url=re.search('img src="(.+)" alt="(.+)" title=',html)
    date=link[-8:]
    return(url.group(1),url.group(2),date)



def main():
    y=raw_input('Enter year 2002 - current(yyyy) ')
    m=raw_input('Enter month(only months 12,11 and 10 for 2002)(mm) ')
    add='http://www.cad-comic.com/cad/archive/'+y
    opener=MyOpener()
    links=getlinks(add,m,opener)
    f=open('/media/aux1/pythonary/cad'+str(y)+str(m)+'.html','w')
    print 'downloading'
    for link in links:
        url=getstriplink(link,opener)
        #date=url[0][-8:]
        date=url[2]
        opener.retrieve(url[0],'/media/aux1/pythonary/getcad_files/strip'+date)
        sys.stdout.flush()
        print'.',
        f.write('<h2>'+url[1]+' '+date+'</h2>'+'<p><img src="getcad_files/strip'+date+'"/></p>')

    f.close()




if __name__ == '__main__':
  main()

导入系统进口稀土导入URL库导入操作系统导入ctypes 从urllib导入FancyURLopener 类开孔器（开孔器）：版本='Mozilla/5.0（Windows；U；Windows NT 5.1；it；rv:1.8.1.11）Gecko/20071127 Firefox/2.0.0.11' def获取链接（添加、m、打开器）： ufile=opener.open（添加） html=ufile.read（） dates=re.findall（'href=“/cad/（\d+）”>，html）链接=[] 对于日期中的日期：如果日期[4:6]==m: links.append（'http://www.cad-comic.com/cad/"日期) links.reverse（）打印“总共找到{}本漫画”。格式（len（链接）） #打印透镜（链接）返回链接 def getstriplink（链接，开启器）： ufile=opener.open（链接） html=ufile.read（） url=re.search（'img src=“（.+）”alt=“（.+）”title=”，html）日期=链接[-8:] 返回（url.group（1）、url.group（2）、日期） def main（）： y=原始输入（“输入2002年-当前年份（yyyy）” m=原始输入（“输入月份（2002年仅为12、11和10个月）（mm）” 加上http://www.cad-comic.com/cad/archive/“+y 开瓶器=MyOpener（） links=getlinks（add、m、opener） f=open（'/media/aux1/pythonaly/cad'+str（y）+str（m）+'.html'，w'）打印“下载” 对于链接中的链接： url=getstriplink（链接，打开器） #日期=url[0][8:] 日期=网址[2] 检索（url[0]，'/media/aux1/pythonary/getcad_files/strip'+date） sys.stdout.flush（）打印“.”， f、写入（''+url[1]+''+date+'+'

'）） f、关闭（）如果uuuu name uuuuuu='\uuuuuuu main\uuuuuuu'： main（）

你最终会抓到大量类似的404页。FWIW，我可以运行你的脚本。虽然

seq

import sys
import re
import urllib
import os
import ctypes
from urllib import FancyURLopener

class MyOpener(FancyURLopener):
    version = 'Mozilla/5.0 (Windows; U; Windows NT 5.1; it;rv:1.8.1.11)Gecko/20071127 Firefox/2.0.0.11'


def getlinks(add,m,opener):
    ufile=opener.open(add)
    html=ufile.read()
    dates=re.findall('href="/cad/(\d+)">',html)
    links=[]
    for date in dates:
            if date[4:6]==m:
            links.append('http://www.cad-comic.com/cad/'+date)
    links.reverse()
    print 'Total {} comics found.'.format(len(links))
    #print len(links)
    return links

def getstriplink(link,opener):
    ufile=opener.open(link)
    html=ufile.read()
    url=re.search('img src="(.+)" alt="(.+)" title=',html)
    date=link[-8:]
    return(url.group(1),url.group(2),date)



def main():
    y=raw_input('Enter year 2002 - current(yyyy) ')
    m=raw_input('Enter month(only months 12,11 and 10 for 2002)(mm) ')
    add='http://www.cad-comic.com/cad/archive/'+y
    opener=MyOpener()
    links=getlinks(add,m,opener)
    f=open('/media/aux1/pythonary/cad'+str(y)+str(m)+'.html','w')
    print 'downloading'
    for link in links:
        url=getstriplink(link,opener)
        #date=url[0][-8:]
        date=url[2]
        opener.retrieve(url[0],'/media/aux1/pythonary/getcad_files/strip'+date)
        sys.stdout.flush()
        print'.',
        f.write('<h2>'+url[1]+' '+date+'</h2>'+'<p><img src="getcad_files/strip'+date+'"/></p>')

    f.close()




if __name__ == '__main__':
  main()