如何在Word和HTML之间管理文档?

如何在Word和HTML之间管理文档?,html,ms-word,Html,Ms Word,如果此问题不适合本网站,请提前道歉 我已经用微软Word写了一些文档,我还需要在网站上显示为HTML。为此,我需要将这些文档的内容输入到带有HTML标记的数据库中。例如,我需要在数据库中输入以下内容: <h1>Document Title</h1> <p>This is the introduction paragraph for the document</p> <ol> <li>This is a summary poi

如果此问题不适合本网站,请提前道歉

我已经用微软Word写了一些文档,我还需要在网站上显示为HTML。为此,我需要将这些文档的内容输入到带有HTML标记的数据库中。例如,我需要在数据库中输入以下内容:

<h1>Document Title</h1>
<p>This is the introduction paragraph for the document</p>
<ol>
<li>This is a summary point</li>
</ol>
文档标题
这是该文件的引言部分

  • 这是一个总结点
  • 我的问题是,将MicrosoftWord保存为HTML页面会添加太多额外的标记(主要是内联CSS的表示),因此我很难将其剥离为基本的HTML结构,如上面的示例所示

    那么,如何保持离线和在线内容的同步呢?我希望避免制作同一文档的两个版本(一个在Word中,一个在HTML中),因为保持它们的同步很困难


    MS Word是否可以设置为不使用任何表示格式保存为HTML?或者我应该使用另一种软件吗?

    如果文档数量有限,您可以使用手动程序进行转换,可能需要一些免费的在线服务,如,或帮助您

    但是,如果您想自动化该过程,您必须知道
    docx
    格式实际上是一个
    zip
    文件,其中包含文档的所有元素(图像、表格、文本等)。这些项目被分类在子文件夹下,其中大多数是XML格式的。因此,您可以使用一些技术,如解释的内容,从
    docx
    文件中提取所需的内容


    还有一些已知的商业和开源库,可以让您操作或提取
    docx
    文件的内容。API类似于或是开源项目的示例,是一种商业产品,是该领域可用的最佳API之一。

    如果文档数量有限,您可以使用手动过程转换它们,可以使用一些免费的在线服务,如或帮助您

    但是,如果您想自动化该过程,您必须知道
    docx
    格式实际上是一个
    zip
    文件,其中包含文档的所有元素(图像、表格、文本等)。这些项目被分类在子文件夹下,其中大多数是XML格式的。因此,您可以使用一些技术,如解释的内容,从
    docx
    文件中提取所需的内容


    还有一些已知的商业和开源库,可以让您操作或提取
    docx
    文件的内容。API类似于或是开源项目的示例,是一种商业产品,是该领域最好的API之一。

    根据经验,我建议坚持使用“保存到html”这个词。移除mso标签的困难比您的问题的任何其他替代解决方案的新引入问题更容易克服


    有很多javascript富文本编辑器FCKEditor和TinyMCE可以剥离word标记-我建议查看这些,这些插件是开源的吗?

    根据经验,我建议坚持使用word save to html方法。移除mso标签的困难比您的问题的任何其他替代解决方案的新引入问题更容易克服


    有很多javascript富文本编辑器FCKEditor和TinyMCE可以剥离word标记-我建议您研究一下这些,这些插件是开源的吗?

    谢谢您的回复。我尝试了各种在线转换器,但它们从未正确转换列表。编号的列表被放入了错误的
    元素中。最后,我发现了如何轻松地做这件事


    将整个Word文档复制并粘贴到Adobe Dreamweaver中。然后进入代码视图,您将看到Dreamweaver完美地应用了正确、干净的HTML标记

    谢谢您的回复。我尝试了各种在线转换器,但它们从未正确转换列表。编号的列表被放入了错误的
    元素中。最后,我发现了如何轻松地做这件事


    将整个Word文档复制并粘贴到Adobe Dreamweaver中。然后进入代码视图,您将看到Dreamweaver完美地应用了正确、干净的HTML标记

    如果使用ColdFusion,则可以使用DocExtactor

    您可以访问所有源代码,因此可以对其进行修改以获得所需的HTML格式


    免责声明:我写的

    如果您使用ColdFusion,您可以使用DocExtactor

    您可以访问所有源代码,因此可以对其进行修改以获得所需的HTML格式


    免责声明:我写的

    你喜欢什么编程语言?你喜欢什么编程语言?