Python 使用保留表将.doc/.docx转换为文本
我想将doc/docx文件转换为文本文件。我的要求是桌子应保持原样 我试过python tika。它可以将行转换为列 例如,输入文档/docx文件中的表格 上面的表格转换为如下所示的文本Python 使用保留表将.doc/.docx转换为文本,python,file,text,apache-tika,Python,File,Text,Apache Tika,我想将doc/docx文件转换为文本文件。我的要求是桌子应保持原样 我试过python tika。它可以将行转换为列 例如,输入文档/docx文件中的表格 上面的表格转换为如下所示的文本 LANGUAGE UNDERSTAND LEARN HINDI YES NO MARATHI YES NO ENGLISH YES NO 所需输出类似(保留表格格式) 如果可能的话,请告诉我。正如@ilmiacs所建议的pandoc可以为您做这件事。 使用python您需要安装pypandoc 测试文
LANGUAGE
UNDERSTAND
LEARN
HINDI
YES
NO
MARATHI
YES
NO
ENGLISH
YES
NO
所需输出类似(保留表格格式)
如果可能的话,请告诉我。正如@ilmiacs所建议的
pandoc
可以为您做这件事。使用
python
您需要安装pypandoc
测试文件: 给你:
显然,您还可以选择使用
子流程
将其放到命令行上。正如@ilmiacs所建议的pandoc
可以为您做到这一点。使用
python
您需要安装pypandoc
测试文件: 给你:
显然,您还可以选择使用
子流程
将其放到命令行上。您是否尝试过pandoc?向Apache Tika询问HTML而不是纯文本版本,然后使用您自己的自定义逻辑转换表,将其余的转换为文本?是否尝试过pandoc?向Apache Tika询问HTML而不是纯文本版本,然后用您自己的自定义逻辑转换表,正常地将其余的转换为文本?
LANGUAGE UNDERSTAND LEARN
HINDI YES NO
MARATHI YES NO
ENGLISH YES NO
import pypandoc
print(pypandoc.convert_file("Untitled 1.docx", "plain+simple_tables", format="docx", extra_args=(), encoding='utf-8', outputfile=None))