Python 读取docx文件时获取错误的特殊字符
我试图使用以下代码从.docx获取文本,但问题是文本包含特殊字符(例如“ç”或“á”),并且代码没有正确读取文件Python 读取docx文件时获取错误的特殊字符,python,Python,我试图使用以下代码从.docx获取文本,但问题是文本包含特殊字符(例如“ç”或“á”),并且代码没有正确读取文件 try: from xml.etree.cElementTree import XML except ImportError: from xml.etree.ElementTree import XML import zipfile """ Module that extract text from MS XML Word document (.docx). (I
try:
from xml.etree.cElementTree import XML
except ImportError:
from xml.etree.ElementTree import XML
import zipfile
"""
Module that extract text from MS XML Word document (.docx).
(Inspired by python-docx <https://github.com/mikemaccana/python-docx>)
"""
WORD_NAMESPACE = '{http://schemas.openxmlformats.org/wordprocessingml/2006/main}'
PARA = WORD_NAMESPACE + 'p'
TEXT = WORD_NAMESPACE + 't'
def get_docx_text(path):
"""
Take the path of a docx file as argument, return the text in unicode.
"""
document = zipfile.ZipFile(path)
xml_content = document.read('word/document.xml')
document.close()
tree = XML(xml_content)
paragraphs = []
for paragraph in tree.getiterator(PARA):
texts = [node.text
for node in paragraph.getiterator(TEXT)
if node.text]
if texts:
paragraphs.append(''.join(texts))
return '\n\n'.join(paragraphs)
if __name__ == '__main__':
doc = def_get_docx_text('teste.docx')
print doc.split('\n')
但我得到的是:
01 A titula\xe7\xe3o gen\xe9rica de Administra\xe7\xe3o
您正在打印列表;在Python中,然后使用repr()
输出显示容器内容u'A titula\xe7\xe3o gen\xe9rica de Administra\xe7\xe3o'
是Unicode字符串值的Python字符串文字语法;此格式是为调试目的而设计的,可以直接粘贴到Python解释器中以重新创建原始值,而无需担心编码问题:
>>> line = u'A titula\xe7\xe3o gen\xe9rica de Administra\xe7\xe3o'
>>> line
u'A titula\xe7\xe3o gen\xe9rica de Administra\xe7\xe3o'
>>> print line
A titulação genérica de Administração
改为打印单个字符串:
for line in doc.split('\n'):
print line
或重新连接字符串,例如使用空格:
print ' '.join(doc.split('\n'))
这是打印列表的正确输出。您将获得
u'A titula\xe7\xe3o gen\xe9rica de Administra\xe7\xe3o'
,请注意引号。恐怕错误在于读取docx文件,因为当我打印整个文档变量时,我已经得到了错误的字符@MartinPieter@user3511563:然后显示实际输出。你分享的不是实际产出;[…]
列表语法丢失,我知道必须有引号和u''
前缀。@user3511563:您显示的未加引号的内容包含正确的字符。
print ' '.join(doc.split('\n'))