python正则表达式在sime列表中多次提取
我写这个脚本:python正则表达式在sime列表中多次提取,python,regex,Python,Regex,我写这个脚本: def extractURL(data): links = re.findall(r'href=[\'"]?([^\'" >]+)', data) scrlinks = re.findall(r'scr=[\'"]?([^\'" >]+)', data) print '+' + str(len(links)) logfile = open('links.dat', 'a') for link in links:
def extractURL(data):
links = re.findall(r'href=[\'"]?([^\'" >]+)', data)
scrlinks = re.findall(r'scr=[\'"]?([^\'" >]+)', data)
print '+' + str(len(links))
logfile = open('links.dat', 'a')
for link in links:
logfile.write('%s\n' % (link))
for link in scrlinks:
logfile.write('%s\n' % (link))
logfile.close()
是否可以在同一列表中多次提取正则表达式?用于一次功能。根据KingScope“是的,我想存储在re–KingScope的一个变量结果中” 使用list
extend
方法
>>> l1 = [1,2,3]
>>> l2 = [4,5,6]
>>> l1.extend(l2)
>>> l1
[1, 2, 3, 4, 5, 6]
或者添加两个列表
>>> l1 = [1,2,3]
>>> l2 = [4,5,6]
>>> l3 = l1+l2
>>> l3
[1, 2, 3, 4, 5, 6]
使用解析器提取
href
ansrc
内容
是html文件数据
>>> import lxml.html as PARSER
>>> root = PARSER.fromstring(content)
>>> root.xpath("//@src")
['#333']
>>> root.xpath("//@href")
['1.com']
>>>
你能举例说明吗?你不能得到你想要的吗?函数看起来没问题。。你能更详细地解释一下吗?意思是你只需要一个变量来存储re的结果??html=curl.getHTML(“)html1=curl.getHTML(“)links=re.findall(r'href=[\'”]?([^\'”>]+'),html)links+=re.findall(r'scr=[\'”]?([^\'”>]+'),html1)对于链接中的链接:打印链接是,我希望将结果存储在一个变量中re@kingcope:这对你很有用??