Warning: file_get_contents(/data/phpspider/zhask/data//catemap/7/user-interface/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 使用保留表将.doc/.docx转换为文本_Python_File_Text_Apache Tika - Fatal编程技术网

Python 使用保留表将.doc/.docx转换为文本

Python 使用保留表将.doc/.docx转换为文本,python,file,text,apache-tika,Python,File,Text,Apache Tika,我想将doc/docx文件转换为文本文件。我的要求是桌子应保持原样 我试过python tika。它可以将行转换为列 例如,输入文档/docx文件中的表格 上面的表格转换为如下所示的文本 LANGUAGE UNDERSTAND LEARN HINDI YES NO MARATHI YES NO ENGLISH YES NO 所需输出类似(保留表格格式) 如果可能的话,请告诉我。正如@ilmiacs所建议的pandoc可以为您做这件事。 使用python您需要安装pypandoc 测试文

我想将doc/docx文件转换为文本文件。我的要求是桌子应保持原样

我试过python tika。它可以将行转换为列

例如,输入文档/docx文件中的表格

上面的表格转换为如下所示的文本

LANGUAGE
UNDERSTAND
LEARN

HINDI
YES
NO

MARATHI
YES
NO

ENGLISH
YES
NO
所需输出类似(保留表格格式)


如果可能的话,请告诉我。

正如@ilmiacs所建议的
pandoc
可以为您做这件事。
使用
python
您需要安装
pypandoc

测试文件:

给你:


显然,您还可以选择使用
子流程
将其放到命令行上。

正如@ilmiacs所建议的
pandoc
可以为您做到这一点。
使用
python
您需要安装
pypandoc

测试文件:

给你:


显然,您还可以选择使用
子流程
将其放到命令行上。

您是否尝试过pandoc?向Apache Tika询问HTML而不是纯文本版本,然后使用您自己的自定义逻辑转换表,将其余的转换为文本?是否尝试过pandoc?向Apache Tika询问HTML而不是纯文本版本,然后用您自己的自定义逻辑转换表,正常地将其余的转换为文本?
 LANGUAGE    UNDERSTAND      LEARN  
 HINDI   YES     NO
 MARATHI     YES     NO
 ENGLISH     YES     NO
import pypandoc
print(pypandoc.convert_file("Untitled 1.docx", "plain+simple_tables", format="docx", extra_args=(), encoding='utf-8', outputfile=None))