获得特殊民族特征奖';Python中的t.split()

获得特殊民族特征奖';Python中的t.split(),python,string,python-2.7,unicode,codec,Python,String,Python 2.7,Unicode,Codec,在Python中,当从文本文件中读取特殊的国家字符时,我遇到了麻烦 with open("../Data/DKsnak.txt") as f: content = f.readlines() str1 = content[0] print "string:",str1 lst1 = str1.split() print "list:",lst1 输出如下所示: string: Udtræk fra observatør på årstal list: ['Udtr\xc3\xa6k

在Python中,当从文本文件中读取特殊的国家字符时,我遇到了麻烦

with open("../Data/DKsnak.txt") as f:
    content = f.readlines()

str1 = content[0]
print "string:",str1

lst1 = str1.split()
print "list:",lst1
输出如下所示:

string: Udtræk fra observatør på årstal
list: ['Udtr\xc3\xa6k', 'fra', 'observat\xc3\xb8r', 'p\xc3\xa5', '\xc3\xa5rstal']
第一行与预期一样,包括特殊的丹麦字符。但是它们不能被分割成一条线。 我尝试了各种各样的编解码器和unicode的技巧,但是找不到神奇的金块

请任何人建议我如何将这些单词编入列表,这样我就可以这样处理它们了

致意 马丁

运行: Python 2.7.5(默认,2014年2月19日,13:47:28)
[GCC 4.8.2 20131212(Red Hat 4.8.2-7)]在linux2上你的代码很好
python
就是这样存储它的特殊字符的。如果打印文本,仍将获得原始字符串:

s = 'Udtræk fra observatør på årstal'
s = s.split()

for i in s:
    print i

[OUTPUT]         #all fine
Udtræk
fra
observatør
på
årstal

你的代码很好
python
就是这样存储它的特殊字符的。如果打印文本,仍将获得原始字符串:

s = 'Udtræk fra observatør på årstal'
s = s.split()

for i in s:
    print i

[OUTPUT]         #all fine
Udtræk
fra
observatør
på
årstal
发件人:

因此,您可以使用unicode并进行拆分

来自:


因此,您可以使用unicode并进行拆分

如前所述使用for循环,如果希望它们位于同一行上:

for i in len(list1):

    string += list1[i] + ' '

print(string) 

使用前面提到的for循环,如果希望它们位于同一行:

for i in len(list1):

    string += list1[i] + ' '

print(string) 

尝试:
用于lst1:print(item)
中的项。您没有unicode,您有一个字节字符串。编码字节不是单个字符。您将字符串表示与字符串值混淆;Python正在为您提供可用于重新创建原始值的表示形式。请尝试:
用于lst1:print(item)
中的项。您没有unicode,只有一个字节字符串。编码字节不是单个字符。您将字符串表示与字符串值混淆;Python为您提供了可用于重新创建原始值的表示。