Java 使用ApacheTika将MSword转换为XML/HTML
我碰巧认识Tika,它在从word中提取文本方面非常有用: curl www.vit.org/downloads/doc/tarriff.doc\ |java-jar tika-app-1.3.jar——文本Java 使用ApacheTika将MSword转换为XML/HTML,java,apache-tika,Java,Apache Tika,我碰巧认识Tika,它在从word中提取文本方面非常有用: curl www.vit.org/downloads/doc/tarriff.doc\ |java-jar tika-app-1.3.jar——文本 但是有没有一种方法可以使用它将Ms Word文件转换为XML/HTML?是的,它需要更改命令中的4个字符 如果您运行java-jar tika-app-1.3.jar--help您将获得以下内容: usage: java -jar tika-app.jar [option...] [fil
但是有没有一种方法可以使用它将Ms Word文件转换为XML/HTML?是的,它需要更改命令中的4个字符 如果您运行
java-jar tika-app-1.3.jar--help
您将获得以下内容:
usage: java -jar tika-app.jar [option...] [file|port...]
Options:
-? or --help Print this usage message
-v or --verbose Print debug level messages
-V or --version Print the Apache Tika version number
-g or --gui Start the Apache Tika GUI
-s or --server Start the Apache Tika server
-f or --fork Use Fork Mode for out-of-process extraction
-x or --xml Output XHTML content (default)
-h or --html Output HTML content
-t or --text Output plain text content
-T or --text-main Output plain text content (main content only)
-m or --metadata Output only metadata
.....
由此,您将看到,如果您将
--text
选项更改为--html
或--xml
,您将得到格式良好的xml,而不仅仅是纯文本,尽管这已经得到了回答,因为op用java标记了问题,为了完整起见,我将添加参考,以便轻松了解如何在java中实现这一点
Tika单元测试中的TikaTest.java超类是使用API将word转换为html的最简单的参考。遗憾的是,他们在编写单元测试时看到了这样一个API的有用性,但选择不将其作为一个方便的工具公开,强迫每个人处理处理程序等,这是常见用例的不幸样板。谢谢,但是有没有办法保留文档结构(html/xml中的表等)?对于大多数文件格式,已经处理过了。Word是其中一个可以显示段落/表格/样式名称的工具。如果您看到,获取XHTML的行数与获取纯文本的行数相同!