获得特殊民族特征奖'；Python中的t.split（）_Python_String_Python 2.7_Unicode_Codec

获得特殊民族特征奖'；Python中的t.split（）

python string python-2.7 unicode

获得特殊民族特征奖'；Python中的t.split（）,python,string,python-2.7,unicode,codec,Python,String,Python 2.7,Unicode,Codec,在Python中，当从文本文件中读取特殊的国家字符时，我遇到了麻烦 with open("../Data/DKsnak.txt") as f: content = f.readlines() str1 = content[0] print "string:",str1 lst1 = str1.split() print "list:",lst1 输出如下所示： string: Udtræk fra observatør på årstal list: ['Udtr\xc3\xa6k

在Python中，当从文本文件中读取特殊的国家字符时，我遇到了麻烦

with open("../Data/DKsnak.txt") as f:
    content = f.readlines()

str1 = content[0]
print "string:",str1

lst1 = str1.split()
print "list:",lst1

输出如下所示：

string: Udtræk fra observatør på årstal
list: ['Udtr\xc3\xa6k', 'fra', 'observat\xc3\xb8r', 'p\xc3\xa5', '\xc3\xa5rstal']

第一行与预期一样，包括特殊的丹麦字符。但是它们不能被分割成一条线。我尝试了各种各样的编解码器和unicode的技巧，但是找不到神奇的金块

请任何人建议我如何将这些单词编入列表，这样我就可以这样处理它们了

致意马丁

运行： Python 2.7.5（默认，2014年2月19日，13:47:28）

[GCC 4.8.2 20131212（Red Hat 4.8.2-7）]在linux2上你的代码很好

python

就是这样存储它的特殊字符的。如果打印文本，仍将获得原始字符串：

s = 'Udtræk fra observatør på årstal'
s = s.split()

for i in s:
    print i

[OUTPUT]         #all fine
Udtræk
fra
observatør
på
årstal

你的代码很好

python

就是这样存储它的特殊字符的。如果打印文本，仍将获得原始字符串：

s = 'Udtræk fra observatør på årstal'
s = s.split()

for i in s:
    print i

[OUTPUT]         #all fine
Udtræk
fra
observatør
på
årstal

发件人：

因此，您可以使用unicode并进行拆分

来自：

因此，您可以使用unicode并进行拆分

如前所述使用for循环，如果希望它们位于同一行上：

for i in len(list1):

    string += list1[i] + ' '

print(string)

使用前面提到的for循环，如果希望它们位于同一行：

for i in len(list1):

    string += list1[i] + ' '

print(string)

尝试：

用于lst1:print（item）

中的项。您没有unicode，您有一个字节字符串。编码字节不是单个字符。您将字符串表示与字符串值混淆；Python正在为您提供可用于重新创建原始值的表示形式。请尝试：

用于lst1:print（item）

中的项。您没有unicode，只有一个字节字符串。编码字节不是单个字符。您将字符串表示与字符串值混淆；Python为您提供了可用于重新创建原始值的表示。