将utf-8格式的字符串转换为unicode:Python_Python_Unicode

将utf-8格式的字符串转换为unicode:Python

python unicode

将utf-8格式的字符串转换为unicode:Python,python,unicode,Python,Unicode,我有一个文本文件，其中的行如下： str = '0|Crazy Taxi\xe2\x84\xa2 City Rush^Truck Racing Super Gear^Candy Crush Soda Saga^Car Parking^BMX Kid^Hill Climb Racing^UNLimited Kareena Kapoor^3D Car Parking^Find My Android Phone!^Christmas Trains^Top Free Games^Telegram^Doo

我有一个文本文件，其中的行如下：

str = '0|Crazy Taxi\xe2\x84\xa2 City Rush^Truck Racing Super Gear^Candy Crush Soda Saga^Car Parking^BMX Kid^Hill Climb Racing^UNLimited Kareena Kapoor^3D Car Parking^Find My Android Phone!^Christmas Trains^Top Free Games^Telegram^Door Screen Lock^Adventure of Ted 2 - Free^Sonic Jump^'

我想删除“\xe2\x84\xa2”，我可以使用以下代码行执行此操作：

print unicode(str,errors="ignore")

output = '0|Crazy Taxi City Rush^Truck Racing Super Gear^Candy Crush Soda Saga^Car Parking^BMX Kid^Hill Climb Racing^UNLimited Kareena Kapoor^3D Car Parking^Find My Android Phone!^Christmas Trains^Top Free Games^Telegram^Door Screen Lock^Adventure of Ted 2 - Free^Sonic Jump^'

但当我使用下面提到的代码在完整文件上运行相同的逻辑时：

with open('train_data_dump.txt', mode='r') as document:
    for line in document:
        print unicode(line,errors='ignore')

它正在像以前一样打印该行

如果我问的问题不够清楚，请随时询问，并请提供帮助。

当您从文件中分配变量时，就像分配了原始字符串一样-反斜杠被视为普通字母。你首先需要解码逃逸的字符

unicode(i.decode("string_escape"), errors="ignore")

检查缩进。这是发布错误，我将对其进行编辑。谢谢这个文本文件包含Python源代码？不，先生，它的文本是在用“^”分隔的网页上写的。请您解释一下它是如何在内部工作的，以及为什么不同？就连我也在试图找到解决办法。谢谢你，先生，这对我很有效。我的想法也很相似，并且在我这边使用unicode（I.strip（），errors=“ignore”）。但这不起作用。很可能是因为strip删除了空格，而不是反斜杠。