C++ .doc到纯文本转换器

C++ .doc到纯文本转换器,c++,C++,是否有任何c/c++开源库可用于将MSWord.doc/.docx文件转换为纯文本格式?我不知道是否有库可用于此任务,但也许您可以从中提取重要的位。不过,我不确定Antiword处理docx。这些实际上不是库,但可能仍然有用。有两个控制台应用程序,我知道和。Antiword是GPL,catdoc源代码也可用,但我不确定许可证。这些都是用C编写的,所以使用C++的这些文件是可能的。 如果其他的都失败了,那么.dx文件实际上是一个zip文件,里面有几个目录。其中一个目录中的一个文件中包含文档文本,即

是否有任何c/c++开源库可用于将MSWord.doc/.docx文件转换为纯文本格式?

我不知道是否有库可用于此任务,但也许您可以从中提取重要的位。不过,我不确定Antiword处理docx。

这些实际上不是库,但可能仍然有用。有两个控制台应用程序,我知道和。Antiword是GPL,catdoc源代码也可用,但我不确定许可证。这些都是用C编写的,所以使用C++的这些文件是可能的。

如果其他的都失败了,那么.dx文件实际上是一个zip文件,里面有几个目录。其中一个目录中的一个文件中包含文档文本,即带有标记的XML。有些标记必须处理,因为它们标记行的结尾,但大多数标记自动更正标记了各种内容的位置,或者标记格式的随机分布的5层嵌套标记


(有一次我不得不在没有互联网接入的机器上手工操作。有人在Office 2011中保存了一个文件,并想在boonies一个朋友家的Office 2005上打开它。)

迈克尔·佩林或莎拉·佩林?你可以改为在命令行上调用Libre-Office。Iirc它有一个无头版本。