Java 如何读取旧word文档文件元数据

Java 如何读取旧word文档文件元数据,java,jsp,ms-word,apache-poi,metadata,Java,Jsp,Ms Word,Apache Poi,Metadata,假设我想将扩展名为doc的word文件连同元数据一起导入HTML文档,并相应地显示在div中。因此,doc文件中的所有现有内容,如各种格式的文本(粗体、斜体、不同大小、字母间距、行高、上划线、不对齐..)、图像(它们的位置和大小)、图形、图表(JSP将生成必要的图形以提供类似的图形或图表。它只需要数据)、列表、,等等 那么有没有办法做到这一点?是否有任何标准化的Word API提供这些数据?或者任何可以这样做的JSP库?如果没有,,那么我需要知道什么,需要做什么才能得到这些呢?查看Apache

假设我想将扩展名为
doc
的word文件连同元数据一起导入HTML文档,并相应地显示在
div
中。因此,
doc
文件中的所有现有内容,如各种格式的文本(粗体、斜体、不同大小、字母间距、行高、上划线、不对齐..)、图像(它们的位置和大小)、图形、图表(JSP将生成必要的图形以提供类似的图形或图表。它只需要数据)、列表、,等等


那么有没有办法做到这一点?是否有任何标准化的Word API提供这些数据?或者任何可以这样做的JSP库?如果没有,,那么我需要知道什么,需要做什么才能得到这些呢?

查看Apache POI项目:http://poi.apache.org/text-extraction.html以及Apache Tika:http://tika.apache.org/

查看Apache POI项目:http://poi.apache.org/text-extraction.html以及Apache Tika:http://tika.apache.org/

五年后,答案是:

注意:此代码仅适用于旧单词“doc”文件(不是docx),ApachePOI也可以处理docx,但您必须使用其他API

使用,maven依赖项:

<!-- https://mvnrepository.com/artifact/org.apache.poi/poi -->
<dependency>
  <groupId>org.apache.poi</groupId>
  <artifactId>poi</artifactId>
  <version>3.17</version>
</dependency>
<dependency>
  <!-- Required for HWPFDocument -->
  <groupId>org.apache.poi</groupId>
  <artifactId>poi-scratchpad</artifactId>
  <version>3.17</version>
</dependency>
要阅读文本内容,您需要其他依赖项:

<!-- https://mvnrepository.com/artifact/org.apache.poi/poi -->
<dependency>
  <groupId>org.apache.poi</groupId>
  <artifactId>poi</artifactId>
  <version>3.17</version>
</dependency>
<dependency>
  <!-- Required for HWPFDocument -->
  <groupId>org.apache.poi</groupId>
  <artifactId>poi-scratchpad</artifactId>
  <version>3.17</version>
</dependency>

5年后,答案是:

注意:此代码仅适用于旧单词“doc”文件(不是docx),ApachePOI也可以处理docx,但您必须使用其他API

使用,maven依赖项:

<!-- https://mvnrepository.com/artifact/org.apache.poi/poi -->
<dependency>
  <groupId>org.apache.poi</groupId>
  <artifactId>poi</artifactId>
  <version>3.17</version>
</dependency>
<dependency>
  <!-- Required for HWPFDocument -->
  <groupId>org.apache.poi</groupId>
  <artifactId>poi-scratchpad</artifactId>
  <version>3.17</version>
</dependency>
要阅读文本内容,您需要其他依赖项:

<!-- https://mvnrepository.com/artifact/org.apache.poi/poi -->
<dependency>
  <groupId>org.apache.poi</groupId>
  <artifactId>poi</artifactId>
  <version>3.17</version>
</dependency>
<dependency>
  <!-- Required for HWPFDocument -->
  <groupId>org.apache.poi</groupId>
  <artifactId>poi-scratchpad</artifactId>
  <version>3.17</version>
</dependency>