获得特殊民族特征奖';Python中的t.split()
在Python中,当从文本文件中读取特殊的国家字符时,我遇到了麻烦获得特殊民族特征奖';Python中的t.split(),python,string,python-2.7,unicode,codec,Python,String,Python 2.7,Unicode,Codec,在Python中,当从文本文件中读取特殊的国家字符时,我遇到了麻烦 with open("../Data/DKsnak.txt") as f: content = f.readlines() str1 = content[0] print "string:",str1 lst1 = str1.split() print "list:",lst1 输出如下所示: string: Udtræk fra observatør på årstal list: ['Udtr\xc3\xa6k
with open("../Data/DKsnak.txt") as f:
content = f.readlines()
str1 = content[0]
print "string:",str1
lst1 = str1.split()
print "list:",lst1
输出如下所示:
string: Udtræk fra observatør på årstal
list: ['Udtr\xc3\xa6k', 'fra', 'observat\xc3\xb8r', 'p\xc3\xa5', '\xc3\xa5rstal']
第一行与预期一样,包括特殊的丹麦字符。但是它们不能被分割成一条线。
我尝试了各种各样的编解码器和unicode的技巧,但是找不到神奇的金块
请任何人建议我如何将这些单词编入列表,这样我就可以这样处理它们了
致意
马丁
运行:
Python 2.7.5(默认,2014年2月19日,13:47:28)
[GCC 4.8.2 20131212(Red Hat 4.8.2-7)]在linux2上你的代码很好
python
就是这样存储它的特殊字符的。如果打印文本,仍将获得原始字符串:
s = 'Udtræk fra observatør på årstal'
s = s.split()
for i in s:
print i
[OUTPUT] #all fine
Udtræk
fra
observatør
på
årstal
你的代码很好
python
就是这样存储它的特殊字符的。如果打印文本,仍将获得原始字符串:
s = 'Udtræk fra observatør på årstal'
s = s.split()
for i in s:
print i
[OUTPUT] #all fine
Udtræk
fra
observatør
på
årstal
发件人:
因此,您可以使用unicode并进行拆分 来自:
因此,您可以使用unicode并进行拆分 如前所述使用for循环,如果希望它们位于同一行上:
for i in len(list1):
string += list1[i] + ' '
print(string)
使用前面提到的for循环,如果希望它们位于同一行:
for i in len(list1):
string += list1[i] + ' '
print(string)
尝试:
用于lst1:print(item)
中的项。您没有unicode,您有一个字节字符串。编码字节不是单个字符。您将字符串表示与字符串值混淆;Python正在为您提供可用于重新创建原始值的表示形式。请尝试:用于lst1:print(item)
中的项。您没有unicode,只有一个字节字符串。编码字节不是单个字符。您将字符串表示与字符串值混淆;Python为您提供了可用于重新创建原始值的表示。