Ms office 如何将doc/docx文件转换为标记文本或结构化文本?
是否有将Ms office 如何将doc/docx文件转换为标记文本或结构化文本?,ms-office,converter,markdown,doc,Ms Office,Converter,Markdown,Doc,是否有将.doc或.docx文件转换为标记或类似文本的程序或工作流 PS:理想情况下,我希望MS Word文档中的特定字体(例如,consolas)能够呈现为文本代码:```..`如果您使用Linux,请尝试(首先使用LibreOffice或其他工具将.doc/.docx转换为html,然后运行它) 在Windows上(或者如果Pandoc不工作),您可以尝试此网站(在线演示,您可以下载):可能值得一试,或者使用和通过HTMLZ描述的过程,下面是他们使用的bash脚本: #/bin/bash m
.doc
或.docx
文件转换为标记或类似文本的程序或工作流
PS:理想情况下,我希望MS Word文档中的特定字体(例如,
consolas
)能够呈现为文本代码:```..`
如果您使用Linux,请尝试(首先使用LibreOffice或其他工具将.doc/.docx转换为html,然后运行它)
在Windows上(或者如果Pandoc不工作),您可以尝试此网站(在线演示,您可以下载):可能值得一试,或者使用和通过HTMLZ描述的过程,下面是他们使用的bash脚本:
#/bin/bash
mkdir温度
cp$1临时工
cd温度
电子书转换$1输出.htmlz
解压缩output.htmlz
光盘
pandoc-f html-t markdown-o output.md temp/index.html
rm-R温度
您可以使用(Ruby Gem)一步转换它。转换可以非常简单,如下所示:
$ gem install word-to-markdown
$ w2m path/to/document.docx
它通过LibreOffice传递文档,但也最好根据标题的相对字体大小对其进行语义分类
还有一个简单的转换方法,只需拖放即可。您可以使用以下Visual Basic脚本将MS Word中的Word文档转换为Markdown: 按照“使用代码”下的说明在Word中创建新宏 注意:这会将当前打开的Word文档转换为标记,从而删除所有Word格式(标题、列表等)。首先保存要转换的Word文档,然后在运行宏之前再次将文档另存为新文档。这样,您就可以随时返回原始Word文档进行更改 这里有更多Word标记VB脚本的示例: 来自:
对于项目符号列表,您可以将列表粘贴到升华文本中,并使用multiselect(已测试)或find and replace(未测试)将专有MS Word字符替换为
-
,-
等
这不适用于标题,但也可以对其他元素使用类似的技术。Pandoc支持直接从docx转换为降价:
pandoc -f docx -t markdown foo.docx -o foo.markdown
支持多种降价格式:
-t gfm (GitHub-Flavored Markdown)
-t markdown_mmd (MultiMarkdown)
-t markdown (pandoc’s extended Markdown)
-t markdown_strict (original unextended Markdown)
-t markdown_phpextra (PHP Markdown Extra)
-t commonmark (CommonMark Markdown)
最有名的是Word-to-HTML转换器,但它现在支持一个模块。当我上次检查时,猛犸象降价支持仍处于早期阶段,所以您可能会发现一些功能不受支持。像往常一样。。。有关最新详细信息,请访问网站
安装
要使用Javascript版本。。。先安装,然后安装猛犸:
npm install -g mammoth
命令行
将Word文档转换为标记的命令行
mammoth document.docx --output-format=markdown
var mammoth = require("mammoth");
mammoth.convertToMarkdown({path: "path/to/document.docx"});
美国石油学会
要转换为降价的NodeJS API
mammoth document.docx --output-format=markdown
var mammoth = require("mammoth");
mammoth.convertToMarkdown({path: "path/to/document.docx"});
特征:
Mammoth Markdown writer当前支持:
- 列表(编号和项目符号)
- 链接
- 字体样式,如粗体、斜体
- 图像
- 标题
- 列表(编号和项目符号)
- 链接
- 字体样式,如粗体、斜体
- 桌子
- 脚注
哪些转换工具? 我已经测试了这三个:
(1)-Pandoc/(2)-Mammoth/(3)-w2m
Pandoc 到目前为止,它是支持多种文件类型的高级转换工具(有关支持的文件类型,请参阅Pandoc的
手册页
):
NB
- 要获取
以导出标记表(pandoc
多标记
或
输出格式gfm
- 如果格式化为PDF,
使用pandoc
模板,因此,如果该命令不起作用,您可能需要为操作系统安装LaTeX
软件包。指示在LaTeX
哪些所见即所得编辑器? 要回答此特定问题(
docx-->降价
),请使用Microsoft Word插件。另一种方法是降价-->docx
保持优良的字体 如果您希望保留unicode字符、表情符号和保持高级字体,那么在文件格式之间使用复制和粘贴操作时,您将从下面的编辑器中获得一些相似之处。请注意,它们不是以本机方式读取或写入
docx
- 对于铬
pandoc--pdf引擎=
pandoc--pdf引擎opt=STRING
更新:A4对美国信件 对于美国以外的地区,设置
pandoc -s -V geometry:a4paper -o outfile.pdf infile.md