python如何获取这些字符串 text=u''_Python

python如何获取这些字符串 text=u''

python

python如何获取这些字符串 text=u'',python,Python,我是一个新手。我想得到\ue6ec、\ue6f6、\ue6ec，如何使用re模块获取这些字符串。多谢各位 Regexp不是处理HTML的好工具。使用。Regexp不是处理HTML的好工具。使用。。使用。对于BeautifulSoup.。使用。用于BeautifulSoup。>>来自BeautifulSoup导入BeautifulSoup text=u’<a href="#5" accesskey="5"></a><a href="#1" accesskey="1

我是一个新手。我想得到\ue6ec、\ue6f6、\ue6ec，如何使用re模块获取这些字符串。

多谢各位

Regexp不是处理HTML的好工具。使用。

。使用。对于BeautifulSoup.

。使用。用于BeautifulSoup。

>>来自BeautifulSoup导入BeautifulSoup
text=u’<a href="#5" accesskey="5"></a><a href="#1" accesskey="1"><font color="#667755">\ue689</font></a><a href="#2" accesskey="2"><font color="#667755">\ue6ec</font></a><a href="#3" accesskey="3"><font color="#667755">\ue6f6</font></a>‘ 

>>>文本=u“
>>>t=美化组（文本）
>>>t.findAll（text=True）
[u'\ue689'，u'\ue6ec'，u'\ue6f6']

>>从BeautifulSoup导入BeautifulSoup
>>>文本=u“
>>>t=美化组（文本）
>>>t.findAll（text=True）
[u'\ue689'，u'\ue6ec'，u'\ue6f6']

如果您知道页面将始终采用这种格式，请使用BeautifulSoup解析器在HTML中查找所需内容

但是，有时由于HTML格式错误，BeautifulSoup可能会中断。我建议您使用libxml2的python绑定。它将解析并通常更正格式不正确的HTML。

如果您知道页面将始终具有该格式，请使用BeautifulSoup解析器在HTML中查找所需内容

但是，有时由于HTML格式错误，BeautifulSoup可能会中断。我建议您使用libxml2的python绑定。它将解析并通常更正格式不正确的HTML。

作为参考，它将生成

u'\ue689\ue6ec\ue6f6'

。最新的BeautifulSoup-3.0.0.py，没有getText（）方法，如何使用它。谢谢。哦，没有注意到-现在修复（这实际上更好，因为现在你不必拆分它-如果你想将它们拆分为一个字符串，那么就执行

'.join（t.findAll（text=True）

，作为参考，它会生成

u'\ue689\ue6ec\ue6f6'

。最新的BeautifulSoup-3.0.0.py，没有getText（）方法，如何使用它。谢谢。Oops，没有注意到-现在已修复。）（这实际上更好，因为现在你不必拆分它-如果你想把它们放在一个字符串中，请执行

'.join（t.findAll（text=True）

哇，这个片段看起来是故意混淆的。这实际上来自什么？哇，这个片段看起来是故意混淆的。这实际上来自什么？

>>> from BeautifulSoup import BeautifulSoup
>>> text=u'<a href="#5" accesskey="5"></a><a href="#1" accesskey="1"><font color="#667755">\ue689</font></a><a href="#2" accesskey="2"><font color="#667755">\ue6ec</font></a><a href="#3" accesskey="3"><font color="#667755">\ue6f6</font></a>'
>>> t = BeautifulSoup(text)
>>> t.findAll(text=True)
[u'\ue689', u'\ue6ec', u'\ue6f6']