如何在python crawler中执行数据循环

如何在python crawler中执行数据循环,python,regex,for-loop,Python,Regex,For Loop,我可以取出第一组,但如何取出下一组 如何使循环在最后一组时停止 x = 1 while True : next = re.search("\<tr>(.*?)</tr>" , match).group(0) print next x = x + 1 x=1 尽管如此: next=re.search(“\(.*)”,匹配).group(0) 下一页打印 x=x+1 match在本例中包含我的已爬网表信息。搜索方法将只查找第一个匹配项。您必须使用而

我可以取出第一组
,但如何取出下一组

如何使循环在最后一组
时停止

x = 1
while True :
    next = re.search("\<tr>(.*?)</tr>" , match).group(0)
    print next
    x = x + 1
x=1
尽管如此:
next=re.search(“\(.*)”,匹配).group(0)
下一页打印
x=x+1

match
在本例中包含我的已爬网表信息。

搜索方法将只查找第一个匹配项。您必须使用而不是
search
来查找所有匹配项,例如:

matches = re.findall("\<tr>(.*?)</tr>" , my_html)
for match in matches:
    print(match)
matches=re.findall(“\(.*?”,我的html)
对于匹配中的匹配:
打印(匹配)

也就是说,对于@DisplayName所提到的解析HTML,使用专门的工具(如BeautifulSoup)可能是更好的选择。

使用HTML解析器解析HTML。使用正则表达式对您的心理健康有害。由于某些其他函数暂时不支持语法分析器,因此无法使用任何html语法分析器。注释不清楚。HTML解析器如何与“其他函数”冲突?