WordML到PDF的转换

WordML到PDF的转换,pdf,itext,Pdf,Itext,我们收到的wordml文档基本上是由msword文档生成的XML文件,其中还包含所有格式说明。现在我们需要将这些文件转换为PDF。我查看了iText xmlworker来进行此转换。它所做的只是删除了所有XML标记,并将所有内容作为PDF格式的单个段落提供给我,而没有任何格式 如何确保生成的PDF包含此wordml文档中格式正确的文本。iText的产品XMLWorker要求您手动处理每个XML元素(除非您将HTML作为输入)。MS Word文档的XML模式极其复杂,因此您需要花几年的时间来研究它

我们收到的wordml文档基本上是由msword文档生成的XML文件,其中还包含所有格式说明。现在我们需要将这些文件转换为PDF。我查看了iText xmlworker来进行此转换。它所做的只是删除了所有XML标记,并将所有内容作为PDF格式的单个段落提供给我,而没有任何格式


如何确保生成的PDF包含此wordml文档中格式正确的文本。

iText的产品XMLWorker要求您手动处理每个XML元素(除非您将HTML作为输入)。MS Word文档的XML模式极其复杂,因此您需要花几年的时间来研究它,以获得看起来甚至还不错的东西。简言之,XMLWorker不会做您认为它会做的事情


如果您希望将MS Word转换为PDF,则需要另一种解决方案。XDocReport(MIT许可证)就是其中之一,它有用于iText 2(LGPL许可证)和iText 5(AGPL许可证)的插件。但结果并不完美。

iText的产品XMLWorker要求您手动处理每个XML元素(除非您将HTML作为输入)。MS Word文档的XML模式极其复杂,因此您需要花几年的时间来研究它,以获得看起来甚至还不错的东西。简言之,XMLWorker不会做您认为它会做的事情


如果您希望将MS Word转换为PDF,则需要另一种解决方案。XDocReport(MIT许可证)就是其中之一,它有用于iText 2(LGPL许可证)和iText 5(AGPL许可证)的插件。但是结果并不完美。

您能从wordml文件中提取文本吗?您能从wordml文件中提取文本吗?