Python 在编写错误的脚本中使用BeautifulSoup隔离值

Python 在编写错误的脚本中使用BeautifulSoup隔离值,python,html,parsing,beautifulsoup,Python,Html,Parsing,Beautifulsoup,我正在尝试解析许多不同页面的HTML源代码,如下所示: 或www.ielts.org//test_center_search/results.aspx?TestCentreID=feb563e3-43db-4d40-a6b1-223e2fb7191b (我有800页像这样) 它们的格式都一样。我试图解析“测试费”值 但这似乎不起作用。在TestCentreViewLabel类上执行find_all(),并使用循环遍历它们。在每次迭代中,获取文本并查看其中是否出现“费用”一词。如果是,则获取当前

我正在尝试解析许多不同页面的HTML源代码,如下所示:

或www.ielts.org//test_center_search/results.aspx?TestCentreID=feb563e3-43db-4d40-a6b1-223e2fb7191b (我有800页像这样)

它们的格式都一样。我试图解析“测试费”值


但这似乎不起作用。

TestCentreViewLabel
类上执行find_all(),并使用循环遍历它们。在每次迭代中,获取文本并查看其中是否出现“费用”一词。如果是,则获取当前标记的下一个同级,其内容应该是您要查找的值。

这至少适用于您提供的示例,因为您将html放入字符串
t

import re
p = = "TestCentreViewBody\">(\w*)\$(\d*)</span>"
re.findall(p, t)

[P>但是,漂亮的汤方案或多或少是相同的。

两个问题:1)所有费用:S有代码< AUD$< /代码>和2)你会考虑只使用正则表达式吗?ReGEX是可以的,而且没有一个页面从另一个页面变为另一个页面。130美元,99澳元。。。等等(很多不同的值)Thx来帮助:)我要试试,看起来很有趣。谢谢!问题是货币总是在变化,所以我不知道会不会有这么多美元。
LOL = findAll('span' .. with the 'class' : 'TestCentreViewBody')
Value = LOL[len(lol)-1]
import re
p = = "TestCentreViewBody\">(\w*)\$(\d*)</span>"
re.findall(p, t)
p = "<span class=\"TestCentreViewLabel\">Test Fee: </span><span class=\"TestCentreViewBody\">(\w*)[^\w\d](\d*)</span>"