用于电子邮件捕获的元编程Python脚本

用于电子邮件捕获的元编程Python脚本,python,wget,curl,c++,Python,Wget,Curl,C++,如何修改以下代码以捕获所有电子邮件而不是图像: import urllib2 import re from os.path import basename from urlparse import urlsplit url = "URL WITH IMAGES" urlContent = urllib2.urlopen(url).read() # HTML image tag: <img src="url" alt="some_text"/> imgUrls = re.findal

如何修改以下代码以捕获所有电子邮件而不是图像:

import urllib2
import re
from os.path import basename
from urlparse import urlsplit

url = "URL WITH IMAGES"
urlContent = urllib2.urlopen(url).read()
# HTML image tag: <img src="url" alt="some_text"/>
imgUrls = re.findall('img .*?src="(.*?)"', urlContent)

# download all images
for imgUrl in imgUrls:
    try:
        imgData = urllib2.urlopen(imgUrl).read()
        fileName = basename(urlsplit(imgUrl)[2])
        output = open(fileName,'wb')
        output.write(imgData)
        output.close()
    except:
        pass
导入urllib2
进口稀土
从os.path导入basename
从URL解析导入URL拆分
url=“带有图像的url”
urlContent=urllib2.urlopen(url).read()
#HTML图像标记:
imgUrls=re.findall('img.*?src=“(.*?”),urlContent)
#下载所有图片
对于imgUrls中的imgUrl:
尝试:
imgData=urllib2.urlopen(imgUrl.read())
fileName=basename(urlspit(imgUrl)[2])
输出=打开(文件名为“wb”)
输出写入(imgData)
output.close()
除:
通过

需要从一系列网站中获取目录。我使用C++来为Unix创建代码,多次调用.pY文件,然后每次将其附加到现有文件。p> 解析/验证电子邮件地址需要强正则表达式。你可以在谷歌上查找。我向您展示了一个解析正则表达式的简单电子邮件地址

emails = re.findall('([a-zA-Z0-9\.]+@[a-zA-Z0-9]+\.[a-zA-Z]{2,3})', urlContent)

这只是一个初步的例子。您需要使用功能强大的。

不确定是否可以做到这一点。我的意思是,使用上面的代码。可能要删除这个。