如何使用Python获取此span标记内的内容?

如何使用Python获取此span标记内的内容?,python,html-parsing,Python,Html Parsing,作为一个学习练习,我试图从Google Translate中获取信息,但我不知道如何获取这个span标签的内容 <span title="Hello" onmouseover="this.style.backgroundColor='#ebeff9'" onmouseout="this.style.backgroundColor='#fff'"> Hallo </span> 你好

作为一个学习练习,我试图从Google Translate中获取信息,但我不知道如何获取这个span标签的内容

<span title="Hello" onmouseover="this.style.backgroundColor='#ebeff9'"                                  
      onmouseout="this.style.backgroundColor='#fff'">
    Hallo
</span>

你好
我将如何使用Python深入内容。既然这个跨度的'title'参数是动态的,我想我可以把它作为一个切入点

例如,尝试翻译: 嗨,欢迎到我家来。你想要一杯茶还是一些饼干

产生以下html输出:

<span title="Hi, welcome to my house." 
onmouseover="this.style.backgroundColor='#ebeff9'" 
onmouseout="this.style.backgroundColor='#fff'">
    Hallo, mein Haus begrüßen zu dürfen. 
</span>

您好,我的房子在这里。

签出

Python附带了一些XML和HTML解析器

  • 元素树解析器
    • 这被认为是解析XML文件最具python风格的方法
  • DOM XML解析器
  • SAX XML解析器
  • Expat XML解析器
  • 简单HTML和XHTML解析器
  • 第三方解析器
    • 如果您不喜欢python附带的任何解析器

我建议您先看看Python附带的解析器,如果您觉得任何包含的模块都不可接受,再看看第三方解析器。

就可以了!谢谢等等,我刚刚意识到我从未导入过不同的.py文件。如何将其“导入”到我的项目中?您可以使用Python软件包管理器进行安装,然后将其导入到您的程序中;只需运行“python setup.py install”。请在答案中包含更多链接。为什么
BeautifulSoup
是这个问题的解决方案?
# -*- coding: utf-8 -*-
def gettext(html):
    for sp in myhtml.split("</span>"):
       if "<span" in sp:
          return sp.rsplit(">")[-1].strip()

myhtml="""
<span title="Hello" onmouseover="this.style.backgroundColor='#ebeff9'"
      onmouseout="this.style.backgroundColor='#fff'">
    Hallo
</span>
"""

print gettext(myhtml)

myhtml="""
<span title="Hi, welcome to my house."
onmouseover="this.style.backgroundColor='#ebeff9'"
onmouseout="this.style.backgroundColor='#fff'">
    Hallo, mein Haus begrüßen zu dürfen.
</span>
"""

print gettext(myhtml)
$ python mytranslate.py
Hallo
Hallo, mein Haus begrüßen zu dürfen.