Python 2.7 python2.7:为什么打印中文列表看起来像[u';\u4ed6';\u6765\u5230';,u';\u4e86';,u';\u7f51\u6613']?

Python 2.7 python2.7:为什么打印中文列表看起来像[u';\u4ed6';\u6765\u5230';,u';\u4e86';,u';\u7f51\u6613']?,python-2.7,nlp,Python 2.7,Nlp,我用《解霸汉语词典》进行分词。 打印单词列表时,结果如下: #!/usr/bin/env python # -*- coding: utf-8 -*- import jieba import sys import jieba s1 = "他来到了网易杭研大厦!" seg_list = jieba.cut(s1) lst1 = ", ".join(seg_list) print lst1 m =lst1.split(', ') print m[2] punct = set(u''':!),.

我用《解霸汉语词典》进行分词。
打印单词列表时,结果如下:

#!/usr/bin/env python
# -*- coding: utf-8 -*- 
import jieba
import sys
import jieba


s1 = "他来到了网易杭研大厦!"
seg_list = jieba.cut(s1)
lst1 = ", ".join(seg_list)
print lst1
m =lst1.split(', ')
print m[2]
punct = set(u''':!),.:;?]}¢'"、。〉》」』】〕〗〞︰︱︳﹐、﹒﹔﹕﹖﹗﹚﹜﹞!),.:;?|}︴︶︸︺︼︾﹀﹂﹄﹏、~¢々‖•·ˇˉ―--′’”([{£¥'"‵〈《「『【〔〖([{£¥〝︵︷︹︻︽︿﹁﹃﹙﹛﹝({“‘-—_…''')

filterpuntl = list(filter(lambda x: x not in punct, m))

print filterpuntl[2]
他, 来到, 了, 网易, 杭研, 大厦, !
[u'\u4ed6', u'\u6765\u5230', u'\u4e86', u'\u7f51\u6613', u'\u676d\u7814', u'\u5927\u53a6', u'!']
[u'\u4ed6', u'\u6765\u5230', u'\u4e86', u'\u7f51\u6613', u'\u676d\u7814', u'\u5927\u53a6']
结果如下:

#!/usr/bin/env python
# -*- coding: utf-8 -*- 
import jieba
import sys
import jieba


s1 = "他来到了网易杭研大厦!"
seg_list = jieba.cut(s1)
lst1 = ", ".join(seg_list)
print lst1
m =lst1.split(', ')
print m[2]
punct = set(u''':!),.:;?]}¢'"、。〉》」』】〕〗〞︰︱︳﹐、﹒﹔﹕﹖﹗﹚﹜﹞!),.:;?|}︴︶︸︺︼︾﹀﹂﹄﹏、~¢々‖•·ˇˉ―--′’”([{£¥'"‵〈《「『【〔〖([{£¥〝︵︷︹︻︽︿﹁﹃﹙﹛﹝({“‘-—_…''')

filterpuntl = list(filter(lambda x: x not in punct, m))

print filterpuntl[2]
他, 来到, 了, 网易, 杭研, 大厦, !
[u'\u4ed6', u'\u6765\u5230', u'\u4e86', u'\u7f51\u6613', u'\u676d\u7814', u'\u5927\u53a6', u'!']
[u'\u4ed6', u'\u6765\u5230', u'\u4e86', u'\u7f51\u6613', u'\u676d\u7814', u'\u5927\u53a6']
如何将
[u'\u4ed6',u'\u6765\u5230'…]
更改为中文字符

当我打印列表中的单个元素时,它是中文的:

print m[2]
print filterpuntl[2]
结果是:

他, 来到, 了, 网易, 杭研, 大厦, !
了
了
u'\u4ed6'
是一个汉字。它只是一种不同的表示,就像你可以为相同的数字编写
0.1
1e-1
——它是相同的东西,只是外观不同

如果您想在打印列表等时看到正确的图示符(它发出对象的
repr()
形式),请切换到Python 3:

$ python3
Python 3.5.2 (default, Aug 18 2017, 17:48:00) 
[GCC 5.4.0 20160609] on linux
Type "help", "copyright", "credits" or "license" for more information.
>>> print(['\u4ed6'])
['他']