Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/redis/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Ms office 如何将doc/docx文件转换为标记文本或结构化文本?_Ms Office_Converter_Markdown_Doc - Fatal编程技术网

Ms office 如何将doc/docx文件转换为标记文本或结构化文本?

Ms office 如何将doc/docx文件转换为标记文本或结构化文本?,ms-office,converter,markdown,doc,Ms Office,Converter,Markdown,Doc,是否有将.doc或.docx文件转换为标记或类似文本的程序或工作流 PS:理想情况下,我希望MS Word文档中的特定字体(例如,consolas)能够呈现为文本代码:```..`如果您使用Linux,请尝试(首先使用LibreOffice或其他工具将.doc/.docx转换为html,然后运行它) 在Windows上(或者如果Pandoc不工作),您可以尝试此网站(在线演示,您可以下载):可能值得一试,或者使用和通过HTMLZ描述的过程,下面是他们使用的bash脚本: #/bin/bash m

是否有将
.doc
.docx
文件转换为标记或类似文本的程序或工作流


PS:理想情况下,我希望MS Word文档中的特定字体(例如,
consolas
)能够呈现为
文本代码:```..`

如果您使用Linux,请尝试(首先使用LibreOffice或其他工具将.doc/.docx转换为html,然后运行它)

在Windows上(或者如果Pandoc不工作),您可以尝试此网站(在线演示,您可以下载):

可能值得一试,或者使用和通过HTMLZ描述的过程,下面是他们使用的bash脚本:

#/bin/bash
mkdir温度
cp$1临时工
cd温度
电子书转换$1输出.htmlz
解压缩output.htmlz
光盘
pandoc-f html-t markdown-o output.md temp/index.html
rm-R温度
您可以使用(Ruby Gem)一步转换它。转换可以非常简单,如下所示:

$ gem install word-to-markdown
$ w2m path/to/document.docx
它通过LibreOffice传递文档,但也最好根据标题的相对字体大小对其进行语义分类


还有一个简单的转换方法,只需拖放即可。

您可以使用以下Visual Basic脚本将MS Word中的Word文档转换为Markdown:

按照“使用代码”下的说明在Word中创建新宏

注意:这会将当前打开的Word文档转换为标记,从而删除所有Word格式(标题、列表等)。首先保存要转换的Word文档,然后在运行宏之前再次将文档另存为新文档。这样,您就可以随时返回原始Word文档进行更改

这里有更多Word标记VB脚本的示例:

来自:


对于项目符号列表,您可以将列表粘贴到升华文本中,并使用multiselect(已测试)或find and replace(未测试)将专有MS Word字符替换为
-
-


这不适用于标题,但也可以对其他元素使用类似的技术。

Pandoc支持直接从docx转换为降价:

pandoc -f docx -t markdown foo.docx -o foo.markdown
支持多种降价格式:

-t gfm (GitHub-Flavored Markdown)  
-t markdown_mmd (MultiMarkdown)  
-t markdown (pandoc’s extended Markdown)  
-t markdown_strict (original unextended Markdown)  
-t markdown_phpextra (PHP Markdown Extra)  
-t commonmark (CommonMark Markdown)  
最有名的是Word-to-HTML转换器,但它现在支持一个模块。当我上次检查时,猛犸象降价支持仍处于早期阶段,所以您可能会发现一些功能不受支持。像往常一样。。。有关最新详细信息,请访问网站

安装 要使用Javascript版本。。。先安装,然后安装猛犸:

npm install -g mammoth
命令行 将Word文档转换为标记的命令行

mammoth document.docx --output-format=markdown
var mammoth = require("mammoth");
mammoth.convertToMarkdown({path: "path/to/document.docx"});
美国石油学会 要转换为降价的NodeJS API

mammoth document.docx --output-format=markdown
var mammoth = require("mammoth");
mammoth.convertToMarkdown({path: "path/to/document.docx"});
特征: Mammoth Markdown writer当前支持:

  • 列表(编号和项目符号)
  • 链接
  • 字体样式,如粗体、斜体
  • 图像
庞大的命令行工具和API已移植到多种语言:

没有降价(2016年5月):

降价:


鉴于您在stackoverflow上提出了这个问题,您可能想要一个编程或命令行解决方案,我已经给出了另一个答案

但是,另一种解决方案可能是使用for Microsoft Word

Writage将Word转换为标记所见即所得编辑器,这样您就可以打开标记文件并对其进行编辑,就像在Microsoft Word中编辑任何文档一样。此外,还可以将Word文档保存为标记文件,而无需任何其他转换器

在封面下,Writage使用了您还需要安装的插件才能工作

它当前支持以下降价元素:

  • 标题
  • 列表(编号和项目符号)
  • 链接
  • 字体样式,如粗体、斜体
  • 桌子
  • 脚注
这可能是许多最终用户的理想解决方案,因为他们不需要安装或运行任何命令行工具,只需坚持使用他们最熟悉的工具即可。

Options
  • 使用转换工具进行多文件转换
  • 对单个文件和高级字体使用所见即所得编辑器

  • 哪些转换工具? 我已经测试了这三个:
    (1)-Pandoc/(2)-Mammoth/(3)-w2m


    Pandoc 到目前为止,它是支持多种文件类型的高级转换工具(有关支持的文件类型,请参阅Pandoc的
    手册页
    ):


    NB
    • 要获取
      pandoc
      以导出标记表(多标记
      gfm
      输出格式

    • 如果格式化为PDF,
      pandoc
      使用
      LaTeX
      模板,因此,如果该命令不起作用,您可能需要为操作系统安装
      LaTeX
      软件包。指示在


    哪些所见即所得编辑器? 要回答此特定问题(
    docx-->降价
    ),请使用Microsoft Word插件。另一种方法是
    降价-->docx


    保持优良的字体 如果您希望保留unicode字符、表情符号和保持高级字体,那么在文件格式之间使用复制和粘贴操作时,您将从下面的编辑器中获得一些相似之处。请注意,它们不是以本机方式读取或写入
    docx

    • 对于铬
    程序等价物 对于编程等价物,您可以通过调用不同的pdf引擎及其相应选项来获得一些结果,但我还没有对此进行测试。pandoc默认为“pdflatex”

    pandoc--pdf引擎=
    pandoc--pdf引擎opt=STRING
    

    更新:A4对美国信件 对于美国以外的地区,设置pandoc -s -V geometry:a4paper -o outfile.pdf infile.md