如何使用Python获取此span标记内的内容?
作为一个学习练习,我试图从Google Translate中获取信息,但我不知道如何获取这个span标签的内容如何使用Python获取此span标记内的内容?,python,html-parsing,Python,Html Parsing,作为一个学习练习,我试图从Google Translate中获取信息,但我不知道如何获取这个span标签的内容 <span title="Hello" onmouseover="this.style.backgroundColor='#ebeff9'" onmouseout="this.style.backgroundColor='#fff'"> Hallo </span> 你好
<span title="Hello" onmouseover="this.style.backgroundColor='#ebeff9'"
onmouseout="this.style.backgroundColor='#fff'">
Hallo
</span>
你好
我将如何使用Python深入内容。既然这个跨度的'title'参数是动态的,我想我可以把它作为一个切入点
例如,尝试翻译:
嗨,欢迎到我家来。你想要一杯茶还是一些饼干
产生以下html输出:
<span title="Hi, welcome to my house."
onmouseover="this.style.backgroundColor='#ebeff9'"
onmouseout="this.style.backgroundColor='#fff'">
Hallo, mein Haus begrüßen zu dürfen.
</span>
您好,我的房子在这里。
签出Python附带了一些XML和HTML解析器
- 元素树解析器
- 这被认为是解析XML文件最具python风格的方法
- DOM XML解析器
- SAX XML解析器
- Expat XML解析器
- 简单HTML和XHTML解析器
- 第三方解析器
- 如果您不喜欢python附带的任何解析器
我建议您先看看Python附带的解析器,如果您觉得任何包含的模块都不可接受,再看看第三方解析器。就可以了!谢谢等等,我刚刚意识到我从未导入过不同的.py文件。如何将其“导入”到我的项目中?您可以使用Python软件包管理器进行安装,然后将其导入到您的程序中;只需运行“python setup.py install”。请在答案中包含更多链接。为什么
BeautifulSoup
是这个问题的解决方案?
# -*- coding: utf-8 -*-
def gettext(html):
for sp in myhtml.split("</span>"):
if "<span" in sp:
return sp.rsplit(">")[-1].strip()
myhtml="""
<span title="Hello" onmouseover="this.style.backgroundColor='#ebeff9'"
onmouseout="this.style.backgroundColor='#fff'">
Hallo
</span>
"""
print gettext(myhtml)
myhtml="""
<span title="Hi, welcome to my house."
onmouseover="this.style.backgroundColor='#ebeff9'"
onmouseout="this.style.backgroundColor='#fff'">
Hallo, mein Haus begrüßen zu dürfen.
</span>
"""
print gettext(myhtml)
$ python mytranslate.py
Hallo
Hallo, mein Haus begrüßen zu dürfen.