如何在python crawler中执行数据循环
我可以取出第一组如何在python crawler中执行数据循环,python,regex,for-loop,Python,Regex,For Loop,我可以取出第一组,但如何取出下一组 如何使循环在最后一组时停止 x = 1 while True : next = re.search("\<tr>(.*?)</tr>" , match).group(0) print next x = x + 1 x=1 尽管如此: next=re.search(“\(.*)”,匹配).group(0) 下一页打印 x=x+1 match在本例中包含我的已爬网表信息。搜索方法将只查找第一个匹配项。您必须使用而
,但如何取出下一组
如何使循环在最后一组
时停止
x = 1
while True :
next = re.search("\<tr>(.*?)</tr>" , match).group(0)
print next
x = x + 1
x=1
尽管如此:
next=re.search(“\(.*)”,匹配).group(0)
下一页打印
x=x+1
match
在本例中包含我的已爬网表信息。搜索方法将只查找第一个匹配项。您必须使用而不是search
来查找所有匹配项,例如:
matches = re.findall("\<tr>(.*?)</tr>" , my_html)
for match in matches:
print(match)
matches=re.findall(“\(.*?”,我的html)
对于匹配中的匹配:
打印(匹配)
也就是说,对于@DisplayName所提到的解析HTML,使用专门的工具(如BeautifulSoup)可能是更好的选择。使用HTML解析器解析HTML。使用正则表达式对您的心理健康有害。由于某些其他函数暂时不支持语法分析器,因此无法使用任何html语法分析器。注释不清楚。HTML解析器如何与“其他函数”冲突?