python如何获取这些字符串 text=u''

python如何获取这些字符串 text=u'',python,Python,我是一个新手。 我想得到\ue6ec、\ue6f6、\ue6ec,如何使用re模块获取这些字符串。 多谢各位 Regexp不是处理HTML的好工具。使用。Regexp不是处理HTML的好工具。使用。。使用。对于BeautifulSoup.。使用。用于BeautifulSoup。>>来自BeautifulSoup导入BeautifulSoup text=u’<a href="#5" accesskey="5"></a><a href="#1" accesskey="1

我是一个新手。 我想得到\ue6ec、\ue6f6、\ue6ec,如何使用re模块获取这些字符串。
多谢各位

Regexp不是处理HTML的好工具。使用。

Regexp不是处理HTML的好工具。使用。

。使用。对于BeautifulSoup.

。使用。用于BeautifulSoup。

>>来自BeautifulSoup导入BeautifulSoup
text=u’<a href="#5" accesskey="5"></a><a href="#1" accesskey="1"><font color="#667755">\ue689</font></a><a href="#2" accesskey="2"><font color="#667755">\ue6ec</font></a><a href="#3" accesskey="3"><font color="#667755">\ue6f6</font></a>‘ 
>>>文本=u“ >>>t=美化组(文本) >>>t.findAll(text=True) [u'\ue689',u'\ue6ec',u'\ue6f6']
>>从BeautifulSoup导入BeautifulSoup
>>>文本=u“
>>>t=美化组(文本)
>>>t.findAll(text=True)
[u'\ue689',u'\ue6ec',u'\ue6f6']

如果您知道页面将始终采用这种格式,请使用BeautifulSoup解析器在HTML中查找所需内容


但是,有时由于HTML格式错误,BeautifulSoup可能会中断。我建议您使用libxml2的python绑定。它将解析并通常更正格式不正确的HTML。

如果您知道页面将始终具有该格式,请使用BeautifulSoup解析器在HTML中查找所需内容


但是,有时由于HTML格式错误,BeautifulSoup可能会中断。我建议您使用libxml2的python绑定。它将解析并通常更正格式不正确的HTML。

作为参考,它将生成
u'\ue689\ue6ec\ue6f6'
。最新的BeautifulSoup-3.0.0.py,没有getText()方法,如何使用它。谢谢。哦,没有注意到-现在修复(这实际上更好,因为现在你不必拆分它-如果你想将它们拆分为一个字符串,那么就执行
'.join(t.findAll(text=True)
,作为参考,它会生成
u'\ue689\ue6ec\ue6f6'
。最新的BeautifulSoup-3.0.0.py,没有getText()方法,如何使用它。谢谢。Oops,没有注意到-现在已修复。)(这实际上更好,因为现在你不必拆分它-如果你想把它们放在一个字符串中,请执行
'.join(t.findAll(text=True)
哇,这个片段看起来是故意混淆的。这实际上来自什么?哇,这个片段看起来是故意混淆的。这实际上来自什么?
>>> from BeautifulSoup import BeautifulSoup
>>> text=u'<a href="#5" accesskey="5"></a><a href="#1" accesskey="1"><font color="#667755">\ue689</font></a><a href="#2" accesskey="2"><font color="#667755">\ue6ec</font></a><a href="#3" accesskey="3"><font color="#667755">\ue6f6</font></a>'
>>> t = BeautifulSoup(text)
>>> t.findAll(text=True)
[u'\ue689', u'\ue6ec', u'\ue6f6']