Python 将字符转换为unicode_Python_Unicode

Python 将字符转换为unicode

python unicode

Python 将字符转换为unicode,python,unicode,Python,Unicode,此代码按预期工作。唯一的问题是，若有unicode字符，它就会转换成ASCII with open('test.idx', 'w') as writefile: with open('test.dat') as myfile: mystr=myfile.read() for myword in mystr.split('|'): tow=myword, '|', mystr.index(myword) pri

此代码按预期工作。唯一的问题是，若有unicode字符，它就会转换成ASCII

with open('test.idx', 'w') as writefile:
    with open('test.dat') as myfile:
        mystr=myfile.read()
        for myword in mystr.split('|'):
            tow=myword, '|', mystr.index(myword)
            print >>writefile, tow

In [74]: !cat test.dat
UTF-8
जनन|1
जन्म देणे
शिक्षण|1
 क्षेत्रातील संशोधनाच्या बाजारीकरणा बाबतीत व्यक्त केलेली 
पूर्व|1
 पगड्यामुळे

In [75]: !cat test.idx
('UTF-8\n\xe0\xa4\x9c\xe0\xa4\xa8\xe0\xa4\xa8', '|', 0)

我希望看到的是unicode而不是转义代码。

在元组中存储数据时看到的是表示。要匹配预期输出，请使用str.join：

     print >>writefile, "".join(map(str,tow))

输出文件将包含：

UTF-8
जनन|0
1
जन्म देणे
शिक्षण|16
1
 क्षेत्रातील संशोधनाच्या बाजारीकरणा बाबतीत व्यक्त केलेली 
पूर्व|63
1
 पगड्यामुळे|239

如果在代码中添加一个

print（tow）

，您将看到有元组

('UTF-8\n\xe0\xa4\x9c\xe0\xa4\xa8\xe0\xa4\xa8', '|', 0)
('1\n\xe0\xa4\x9c\xe0\xa4\xa8\xe0\xa5\x8d\xe0\xa4\xae \xe0\xa4\xa6\xe0\xa5\x87\xe0\xa4\xa3\xe0\xa5\x87\n\xe0\xa4\xb6\xe0\xa4\xbf\xe0\xa4\x95\xe0\xa5\x8d\xe0\xa4\xb7\xe0\xa4\xa3', '|', 16)
('1\n \xe0\xa4\x95\xe0\xa5\x8d\xe0\xa4\xb7\xe0\xa5\x87\xe0\xa4\xa4\xe0\xa5\x8d\xe0\xa4\xb0\xe0\xa4\xbe\xe0\xa4\xa4\xe0\xa5\x80\xe0\xa4\xb2 \xe0\xa4\xb8\xe0\xa4\x82\xe0\xa4\xb6\xe0\xa5\x8b\xe0\xa4\xa7\xe0\xa4\xa8\xe0\xa4\xbe\xe0\xa4\x9a\xe0\xa5\x8d\xe0\xa4\xaf\xe0\xa4\xbe \xe0\xa4\xac\xe0\xa4\xbe\xe0\xa4\x9c\xe0\xa4\xbe\xe0\xa4\xb0\xe0\xa5\x80\xe0\xa4\x95\xe0\xa4\xb0\xe0\xa4\xa3\xe0\xa4\xbe \xe0\xa4\xac\xe0\xa4\xbe\xe0\xa4\xac\xe0\xa4\xa4\xe0\xa5\x80\xe0\xa4\xa4 \xe0\xa4\xb5\xe0\xa5\x8d\xe0\xa4\xaf\xe0\xa4\x95\xe0\xa5\x8d\xe0\xa4\xa4 \xe0\xa4\x95\xe0\xa5\x87\xe0\xa4\xb2\xe0\xa5\x87\xe0\xa4\xb2\xe0\xa5\x80 \n\xe0\xa4\xaa\xe0\xa5\x82\xe0\xa4\xb0\xe0\xa5\x8d\xe0\xa4\xb5', '|', 63)
('1\n \xe0\xa4\xaa\xe0\xa4\x97\xe0\xa4\xa1\xe0\xa5\x8d\xe0\xa4\xaf\xe0\xa4\xbe\xe0\xa4\xae\xe0\xa5\x81\xe0\xa4\xb3\xe0\xa5\x87', '|', 239)

您也有utf-8编码的字符串，而不是unicode，如果您从tow打印单个元素，您还将看到正确的输出。

您创建了一个元组：

tow=myword, '|', mystr.index(myword)

这不是一个字符串对象，这是一个包含三个其他对象的元组，其中两个是字符串，一个是整数

然后将该元组写入文件时，Python必须将其转换为字符串。转换任何Python容器（元组、列表、集合或字典）都将使用所包含对象的

repr（）

表示。对于字符串，这意味着只允许并显示可打印的ASCII字符，其他所有字符都使用转义序列，通常是

\xhh

格式

如果这不是您用例的正确输出，您需要自己进行字符串转换。您可以使用字符串格式：

tow = '{}|{}'.format(myword, mystr.index(myword))

如果您正在生成大量的

-分隔数据，您可能希望查看

csv

模块来处理分隔符和文件写入。

您看到的是repr输出，因为您正在写入元组，请尝试

print>>writefile，“”。加入（map（str，tow））

并在创建元组时看到正确的输出，与将任何Python容器（列表、字典等）转换为字符串一样，内容由

repr（）

输出表示。如果输出不正确，请不要编写原始元组。请注意，您有UTF-8数据，而不是Unicode数据。这些概念是相关的，但不是同一件事。