用于电子邮件捕获的元编程Python脚本
如何修改以下代码以捕获所有电子邮件而不是图像:用于电子邮件捕获的元编程Python脚本,python,wget,curl,c++,Python,Wget,Curl,C++,如何修改以下代码以捕获所有电子邮件而不是图像: import urllib2 import re from os.path import basename from urlparse import urlsplit url = "URL WITH IMAGES" urlContent = urllib2.urlopen(url).read() # HTML image tag: <img src="url" alt="some_text"/> imgUrls = re.findal
import urllib2
import re
from os.path import basename
from urlparse import urlsplit
url = "URL WITH IMAGES"
urlContent = urllib2.urlopen(url).read()
# HTML image tag: <img src="url" alt="some_text"/>
imgUrls = re.findall('img .*?src="(.*?)"', urlContent)
# download all images
for imgUrl in imgUrls:
try:
imgData = urllib2.urlopen(imgUrl).read()
fileName = basename(urlsplit(imgUrl)[2])
output = open(fileName,'wb')
output.write(imgData)
output.close()
except:
pass
导入urllib2
进口稀土
从os.path导入basename
从URL解析导入URL拆分
url=“带有图像的url”
urlContent=urllib2.urlopen(url).read()
#HTML图像标记:
imgUrls=re.findall('img.*?src=“(.*?”),urlContent)
#下载所有图片
对于imgUrls中的imgUrl:
尝试:
imgData=urllib2.urlopen(imgUrl.read())
fileName=basename(urlspit(imgUrl)[2])
输出=打开(文件名为“wb”)
输出写入(imgData)
output.close()
除:
通过
需要从一系列网站中获取目录。我使用C++来为Unix创建代码,多次调用.pY文件,然后每次将其附加到现有文件。p> 解析/验证电子邮件地址需要强正则表达式。你可以在谷歌上查找。我向您展示了一个解析正则表达式的简单电子邮件地址
emails = re.findall('([a-zA-Z0-9\.]+@[a-zA-Z0-9]+\.[a-zA-Z]{2,3})', urlContent)
这只是一个初步的例子。您需要使用功能强大的。不确定是否可以做到这一点。我的意思是,使用上面的代码。可能要删除这个。