用于电子邮件捕获的元编程Python脚本_Python_Wget_Curl_C++

用于电子邮件捕获的元编程Python脚本

python curl c++

用于电子邮件捕获的元编程Python脚本,python,wget,curl,c++,Python,Wget,Curl,C++,如何修改以下代码以捕获所有电子邮件而不是图像： import urllib2 import re from os.path import basename from urlparse import urlsplit url = "URL WITH IMAGES" urlContent = urllib2.urlopen(url).read() # HTML image tag: <img src="url" alt="some_text"/> imgUrls = re.findal

如何修改以下代码以捕获所有电子邮件而不是图像：

import urllib2
import re
from os.path import basename
from urlparse import urlsplit

url = "URL WITH IMAGES"
urlContent = urllib2.urlopen(url).read()
# HTML image tag: <img src="url" alt="some_text"/>
imgUrls = re.findall('img .*?src="(.*?)"', urlContent)

# download all images
for imgUrl in imgUrls:
    try:
        imgData = urllib2.urlopen(imgUrl).read()
        fileName = basename(urlsplit(imgUrl)[2])
        output = open(fileName,'wb')
        output.write(imgData)
        output.close()
    except:
        pass

导入urllib2
进口稀土
从os.path导入basename
从URL解析导入URL拆分
url=“带有图像的url”
urlContent=urllib2.urlopen（url）.read（）
#HTML图像标记：
imgUrls=re.findall（'img.*？src=“（.*？”），urlContent）
#下载所有图片
对于imgUrls中的imgUrl：
尝试：
imgData=urllib2.urlopen（imgUrl.read（））
fileName=basename（urlspit（imgUrl）[2]）
输出=打开（文件名为“wb”）
输出写入（imgData）
output.close（）
除：
通过

需要从一系列网站中获取目录。我使用C++来为Unix创建代码，多次调用.pY文件，然后每次将其附加到现有文件。p> 解析/验证电子邮件地址需要强正则表达式。你可以在谷歌上查找。我向您展示了一个解析正则表达式的简单电子邮件地址

emails = re.findall('([a-zA-Z0-9\.]+@[a-zA-Z0-9]+\.[a-zA-Z]{2,3})', urlContent)

这只是一个初步的例子。您需要使用功能强大的。

不确定是否可以做到这一点。我的意思是，使用上面的代码。可能要删除这个。