Regex 解析网页,使用re,如何确定找到的字符串的行?
我正在用python查看一个网站,其代码如下:Regex 解析网页,使用re,如何确定找到的字符串的行?,regex,python-2.7,web,Regex,Python 2.7,Web,我正在用python查看一个网站,其代码如下: import urllib import urllib2 import re aResp = aResp = urllib2.urlopen("http://stackoverflow.com/"); web_pg = aResp.read(); pattern = "<title>Stack Overflow</title>" m = re.search(pattern, web_pg) if m: pri
import urllib
import urllib2
import re
aResp = aResp = urllib2.urlopen("http://stackoverflow.com/");
web_pg = aResp.read();
pattern = "<title>Stack Overflow</title>"
m = re.search(pattern, web_pg)
if m:
print "found"
else:
print "Nothing found"
导入urllib
导入urllib2
进口稀土
aResp=aResp=urlib2.urlopen(“http://stackoverflow.com/");
web_pg=arsp.read();
pattern=“堆栈溢出”
m=重新搜索(模式、网页)
如果m:
打印“找到”
其他:
打印“未找到任何内容”
我试着在这之后看看标签,然后把测试放在里面。有什么简单的方法可以找到这些信息吗????
如果更简单的话,我可以做一些事情,只给出行数m和获取该行HTML代码的方法。要捕获文本,请使用()大括号,如下所示:
import urllib
import urllib2
import re
aResp = aResp = urllib2.urlopen("http://stackoverflow.com/");
web_pg = aResp.read();
pattern = "<title>(.*?)</title>"
m = re.search(pattern, web_pg)
if m:
print m.group(1)
else:
print "Nothing found"
导入urllib
导入urllib2
进口稀土
aResp=aResp=urlib2.urlopen(“http://stackoverflow.com/");
web_pg=arsp.read();
pattern=“(.*)”
m=重新搜索(模式、网页)
如果m:
打印m.group(1)
其他:
打印“未找到任何内容”
小组()函数返回匹配项的第一个匹配项。您能更清楚地解释一下吗?您可以举一个例子,用它来确定代码所在的行或其他内容吗?很抱歉,我可能没有说清楚,我想查看代码并找到搜索词所在的行……您想要行内容还是行内容数字?不要紧,现在我通过将html写入一个我操作过的文本文件来修复它。