Python 在编写错误的脚本中使用BeautifulSoup隔离值_Python_Html_Parsing_Beautifulsoup

Python 在编写错误的脚本中使用BeautifulSoup隔离值

python html parsing

Python 在编写错误的脚本中使用BeautifulSoup隔离值,python,html,parsing,beautifulsoup,Python,Html,Parsing,Beautifulsoup,我正在尝试解析许多不同页面的HTML源代码，如下所示：或www.ielts.org//test_center_search/results.aspx？TestCentreID=feb563e3-43db-4d40-a6b1-223e2fb7191b （我有800页像这样）它们的格式都一样。我试图解析“测试费”值但这似乎不起作用。在TestCentreViewLabel类上执行find_all（），并使用循环遍历它们。在每次迭代中，获取文本并查看其中是否出现“费用”一词。如果是，则获取当前

我正在尝试解析许多不同页面的HTML源代码，如下所示：

或www.ielts.org//test_center_search/results.aspx？TestCentreID=feb563e3-43db-4d40-a6b1-223e2fb7191b （我有800页像这样）

它们的格式都一样。我试图解析“测试费”值

但这似乎不起作用。

在

TestCentreViewLabel

类上执行find_all（），并使用循环遍历它们。在每次迭代中，获取文本并查看其中是否出现“费用”一词。如果是，则获取当前标记的下一个同级，其内容应该是您要查找的值。

这至少适用于您提供的示例，因为您将html放入字符串

：

import re
p = = "TestCentreViewBody\">(\w*)\$(\d*)</span>"
re.findall(p, t)

[P>但是，漂亮的汤方案或多或少是相同的。

两个问题：1）所有费用：S有代码< AUD$< /代码>和2）你会考虑只使用正则表达式吗？ReGEX是可以的，而且没有一个页面从另一个页面变为另一个页面。130美元，99澳元。。。等等（很多不同的值）Thx来帮助：）我要试试，看起来很有趣。谢谢！问题是货币总是在变化，所以我不知道会不会有这么多美元。

LOL = findAll('span' .. with the 'class' : 'TestCentreViewBody')
Value = LOL[len(lol)-1]

import re
p = = "TestCentreViewBody\">(\w*)\$(\d*)</span>"
re.findall(p, t)

p = "<span class=\"TestCentreViewLabel\">Test Fee: </span><span class=\"TestCentreViewBody\">(\w*)[^\w\d](\d*)</span>"