python unicode-当我想读取文件中的内容时

python unicode-当我想读取文件中的内容时,python,unicode,Python,Unicode,我想通过python代码阅读中文文件。但我得到了一个混乱的输出 以下是我的代码: #!/usr/bin/env python # -*- coding: utf-8 -*- with open('1.doc', 'r+') as f: text = f.readlines() print text 输出: \x01\x00\x00\xfe\xff\xff\xffy\x01\x00\x00z\x01\x00\x00{\x01\x00\x00|\x01\x00\x00}\x01\

我想通过python代码阅读中文文件。但我得到了一个混乱的输出

以下是我的代码:

#!/usr/bin/env python
# -*- coding: utf-8 -*-

with open('1.doc', 'r+') as f:
    text = f.readlines()
    print text
输出:

\x01\x00\x00\xfe\xff\xff\xffy\x01\x00\x00z\x01\x00\x00{\x01\x00\x00|\x01\x00\x00}\x01\x00\x00~\x01\x00\x00\x7f\x01\x00\x00\x80\x01\x00\x00\x81\x01\x00\x00\x82\x01\

我知道它一定有一些编码或解码的问题。但我不知道怎么弄清楚

这与中文无关。这是一个Word文档,它是一种二进制文件格式。您不能仅仅通过readlines读取它:您需要将它从二进制文件格式转换为二进制文件格式。像这样的库会有所帮助。

要显示Unicode,您必须配置系统字符。使用sys.getdefaultencoding检查您的环境配置,如果未输出utf-8,则不会显示中文。如果您在窗口上使用encoding='cp1252'读取,但首先检查环境。

您希望得到什么@一二三 该文件的内容是中文。我想让它显示中文。如果你打开MS Word文档,你必须先手动转换它,或者如果你在Windows上,使用上面描述的COM界面。@ChristianWitts我已经尝试将它转换为txt类型。输出更改为\\u21516\\u30340\\u27835\\u23398\\u24577\\u24230\\u65292\\u35848\\u35848\\u20320\\u33719\\u24471\\u30340\\u21551\\u31034\\u12290\\ n'相关:docx库仅适用于.docx格式的Word 2007+文档,而不适用于使用.docx格式的旧文档@曾锐鸿 我特别说过你不能那样读,那你为什么这么说@曾锐鸿 那么谷歌如何共同配置你的编辑器和控制台呢