Python3从页面提取html信息
我一直在用谷歌搜索,但我真的找不到一个好的python3解决方案。给定以下HTML代码,如何使用python3提取2019、0.7和4.50%的内容Python3从页面提取html信息,python,html,python-3.x,Python,Html,Python 3.x,我一直在用谷歌搜索,但我真的找不到一个好的python3解决方案。给定以下HTML代码,如何使用python3提取2019、0.7和4.50%的内容 <td rowspan='2' style='vertical-align:middle'>2019</td><td rowspan='2' style='vertical-align:middle;font-weight:bold;'>4.50%</td><td rowspan='2' sty
<td rowspan='2' style='vertical-align:middle'>2019</td><td rowspan='2' style='vertical-align:middle;font-weight:bold;'>4.50%</td><td rowspan='2' style='vertical-align:middle;font-weight:bold;'>SGD 0.7</td> <td>SGD0.2 </td>
20194.50%新加坡元0.7新加坡元0.2
使用以下方法的解决方案:
我认为这可能有助于回答您的问题:
from html.parser import HTMLParser
class MyHTMLParser(HTMLParser):
def handle_data(self, data):
print(data)
parser = MyHTMLParser()
parser.feed("<Your HTML here>")
从html.parser导入HTMLParser
类MyHtmlPasser(HtmlPasser):
def句柄_数据(自身、数据):
打印(数据)
parser=MyHTMLParser()
parser.feed(“”)
对于您的特殊情况,这将返回:
2019
4.50%
0.7新加坡元
SGD0.2你知道有
BeautifulSoup
?,如果没有,那么检查:如果它没有回答这个问题,它会有什么帮助?这是因为它提供了非常接近他需要的实际数据的东西。请阅读问题,然后回答:)请关注质量答案:)谢谢。你能告诉我*是什么吗?我真的不明白这个代码是怎么写的works@user3702643a,b,*rest=[1,2,3,4]
是标准的python语法,用于将iterables(列表,元组,…)解包为变量。在此之后,a
将成为1
,b
将成为2
,rest
将成为[3,4]
。这里有更多信息如果你有一些其他的要求,会发生什么?如果这是一张桌子,这是很可能的@user3702643在实现时需要注意这一点。@Prateek这取决于不同的页面,每个页面都有不同的结构。OP必须相应地修改CSS选择器。@AndrejKesely我认为他可能是对的。这是一个巨大的html文档,我只需要从中提取上述信息
2019 4.50% 0.7
from html.parser import HTMLParser
class MyHTMLParser(HTMLParser):
def handle_data(self, data):
print(data)
parser = MyHTMLParser()
parser.feed("<Your HTML here>")