Ms word docx/doc/rtf与轻量级标记之间的转换

Ms word docx/doc/rtf与轻量级标记之间的转换,ms-word,cross-platform,markup,docx,Ms Word,Cross Platform,Markup,Docx,我正在寻找一个工具或工具集之间的转换文件格式D和M在哪里 D是由MSWord处理的格式,按优先顺序为docx、doc、rtf M是一种轻量级标记,如markdown、textile、txt2tags,它可以是一种深奥的标记 有一种方法可以从M生成html 转换是双向的,从D到M,从M到D都是这样 utf-8编码处理正确 内容很简单,段落,一些简单的格式,如粗体和斜体,可能是列表 这些工具与平台无关 到目前为止我发现了什么 特克斯,乳胶,太重了 --太轻量级了,它根本不支持格式化 html—

我正在寻找一个工具或工具集之间的转换文件格式D和M在哪里

  • D是由MSWord处理的格式,按优先顺序为docx、doc、rtf
  • M是一种轻量级标记,如markdown、textile、txt2tags,它可以是一种深奥的标记
  • 有一种方法可以从M生成html
  • 转换是双向的,从D到M,从M到D都是这样
  • utf-8编码处理正确
  • 内容很简单,段落,一些简单的格式,如粗体和斜体,可能是列表
  • 这些工具与平台无关
到目前为止我发现了什么

  • 特克斯,乳胶,太重了
  • --太轻量级了,它根本不支持格式化
  • html——MSWord生成膨胀的html
  • 一些单向转换,比如
更新:

用例是技术人员和非技术人员之间的文档工作流

  • 一、 技术人员编辑纯文本文档,将其放入版本控制等
  • 我将其发送给我的经理或其他非技术人员
  • 他们添加评论,用他们的文字对其进行更改,然后将其发送回我
  • 我想简单地摸索他们的更改,进行更改,将其放入版本控制,而不必使用Word

亚当,我已经使用docx4j将docx转换为html,在CKEditor中编辑html,然后使用docx4j将html转换回docx。我的过程对css做了一些假设(即它被设计用来处理docx4j的干净html,并在CKEditor中进行编辑)


您没有说是否有一种方法可以从HTML生成M?

这可能很难双向执行,因为不同格式之间存在阻抗不匹配

我能想到的最好的世界是一种Wiki/Word的混合:也许你能让googlewave帮你做到这一点


另一个可能有效的解决方案是像Plone这样的CMS(他们有没有添加WYSIWIG功能?在版本1之后我就不再关心了)。把你的文件放在那里。让系统处理更改、注释等。您可以自动检索源代码(应为ReStructuredText),并在必要时将其提交给源代码管理。

我编写的此脚本可能对您的工作流有所帮助:

它是一个命令行PHP脚本,只适用于
.docx
文件。它将提取XML,运行一些XSL转换,并以降价格式提供结果


我鼓励您向我发送无法准确转换的
.docx
文件。我希望使这个脚本尽可能健壮可靠。

我认为Pandoc远远不能满足所有要求


为什么?为什么不使用轻量级标记并从中创建PDF?为什么还要继续使用Word?@S.Lott-与世界其他地方交流。纯文本和PDF文件格式不是比Microsoft文件格式更通用吗?这个“世界其他地方”是谁?因为我属于90%的人,他们早就停止使用这个词了,就像你建议的那样。这段对话有助于你回答我的问题,还是你只是在玩乐?@S.Lott-真实一点。请90%的数字是个笑话,因为事实恰恰相反。每个人和他们的祖母都使用办公室。纯粹主义者不喜欢这样,但嘿,这就是我们谈论的真实世界。