Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/java/321.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Java 使用ApacheTika将MSword转换为XML/HTML_Java_Apache Tika - Fatal编程技术网

Java 使用ApacheTika将MSword转换为XML/HTML

Java 使用ApacheTika将MSword转换为XML/HTML,java,apache-tika,Java,Apache Tika,我碰巧认识Tika,它在从word中提取文本方面非常有用: curl www.vit.org/downloads/doc/tarriff.doc\ |java-jar tika-app-1.3.jar——文本 但是有没有一种方法可以使用它将Ms Word文件转换为XML/HTML?是的,它需要更改命令中的4个字符 如果您运行java-jar tika-app-1.3.jar--help您将获得以下内容: usage: java -jar tika-app.jar [option...] [fil

我碰巧认识Tika,它在从word中提取文本方面非常有用:

curl www.vit.org/downloads/doc/tarriff.doc\ |java-jar tika-app-1.3.jar——文本


但是有没有一种方法可以使用它将Ms Word文件转换为XML/HTML?

是的,它需要更改命令中的4个字符

如果您运行
java-jar tika-app-1.3.jar--help
您将获得以下内容:

usage: java -jar tika-app.jar [option...] [file|port...]

Options:
  -?  or --help          Print this usage message
  -v  or --verbose       Print debug level messages
  -V  or --version       Print the Apache Tika version number

  -g  or --gui           Start the Apache Tika GUI
  -s  or --server        Start the Apache Tika server
  -f  or --fork          Use Fork Mode for out-of-process extraction

  -x  or --xml           Output XHTML content (default)
  -h  or --html          Output HTML content
  -t  or --text          Output plain text content
  -T  or --text-main     Output plain text content (main content only)
  -m  or --metadata      Output only metadata
.....

由此,您将看到,如果您将
--text
选项更改为
--html
--xml
,您将得到格式良好的xml,而不仅仅是纯文本

,尽管这已经得到了回答,因为op用java标记了问题,为了完整起见,我将添加参考,以便轻松了解如何在java中实现这一点


Tika单元测试中的TikaTest.java超类是使用API将word转换为html的最简单的参考。遗憾的是,他们在编写单元测试时看到了这样一个API的有用性,但选择不将其作为一个方便的工具公开,强迫每个人处理处理程序等,这是常见用例的不幸样板。

谢谢,但是有没有办法保留文档结构(html/xml中的表等)?对于大多数文件格式,已经处理过了。Word是其中一个可以显示段落/表格/样式名称的工具。如果您看到,获取XHTML的行数与获取纯文本的行数相同!