Python3从页面提取html信息_Python_Html_Python 3.x

Python3从页面提取html信息

python html python-3.x

Python3从页面提取html信息,python,html,python-3.x,Python,Html,Python 3.x,我一直在用谷歌搜索，但我真的找不到一个好的python3解决方案。给定以下HTML代码，如何使用python3提取2019、0.7和4.50%的内容 <td rowspan='2' style='vertical-align:middle'>2019</td><td rowspan='2' style='vertical-align:middle;font-weight:bold;'>4.50%</td><td rowspan='2' sty

我一直在用谷歌搜索，但我真的找不到一个好的python3解决方案。给定以下HTML代码，如何使用python3提取2019、0.7和4.50%的内容

<td rowspan='2' style='vertical-align:middle'>2019</td><td rowspan='2' style='vertical-align:middle;font-weight:bold;'>4.50%</td><td rowspan='2' style='vertical-align:middle;font-weight:bold;'>SGD 0.7</td>   <td>SGD0.2      </td>

20194.50%新加坡元0.7新加坡元0.2

使用以下方法的解决方案：

我认为这可能有助于回答您的问题：

from html.parser import HTMLParser

class MyHTMLParser(HTMLParser):
    def handle_data(self, data):
        print(data)

parser = MyHTMLParser()
parser.feed("<Your HTML here>")

从html.parser导入HTMLParser
类MyHtmlPasser（HtmlPasser）：
def句柄_数据（自身、数据）：
打印（数据）
parser=MyHTMLParser（）
parser.feed（“”）

对于您的特殊情况，这将返回： 2019 4.50% 0.7新加坡元

SGD0.2

你知道有

BeautifulSoup

？，如果没有，那么检查：如果它没有回答这个问题，它会有什么帮助？这是因为它提供了非常接近他需要的实际数据的东西。请阅读问题，然后回答：）请关注质量答案：）谢谢。你能告诉我*是什么吗？我真的不明白这个代码是怎么写的works@user3702643

a，b，*rest=[1，2，3，4]

是标准的python语法，用于将iterables（列表，元组，…）解包为变量。在此之后，

将成为

，

将成为

，

rest

将成为

[3,4]

。这里有更多信息如果你有一些其他的要求，会发生什么？如果这是一张桌子，这是很可能的@user3702643在实现时需要注意这一点。@Prateek这取决于不同的页面，每个页面都有不同的结构。OP必须相应地修改CSS选择器。@AndrejKesely我认为他可能是对的。这是一个巨大的html文档，我只需要从中提取上述信息

2019 4.50% 0.7

from html.parser import HTMLParser

class MyHTMLParser(HTMLParser):
    def handle_data(self, data):
        print(data)

parser = MyHTMLParser()
parser.feed("<Your HTML here>")