使用Java库从ODT文档中提取字段_Java_Parsing_Field_Data Extraction_Odt

使用Java库从ODT文档中提取字段

java parsing

使用Java库从ODT文档中提取字段,java,parsing,field,data-extraction,odt,Java,Parsing,Field,Data Extraction,Odt,我需要使用Java库或代码从ODT文档的内容中提取字段标记。我知道odt是某种压缩文件，它的内容在content.xml文件中。当然，我可以提取文件，打开content.xml并解析它，但我相信存在一些更高级别的代码。例如，内容如下所示： <text:p text:style-name="Standard">Hi ${name}!</text:p> <text:p text:style-name="Standard"> <text:text-in

我需要使用Java库或代码从ODT文档的内容中提取字段标记。我知道odt是某种压缩文件，它的内容在content.xml文件中。当然，我可以提取文件，打开content.xml并解析它，但我相信存在一些更高级别的代码。例如，内容如下所示：

<text:p text:style-name="Standard">Hi ${name}!</text:p>    
<text:p text:style-name="Standard">
<text:text-input text:description="JOOScript">$nome</text:text-input></text:p>

Hi${name}！
$nome

我想将字段提取为${name}和$nome

我知道ApacheTika可以用于此，但我还没有发现一个实际显示字段提取的示例。我相信这是因为我使用的字段是非结构化文本，而不是输入字段标记

提前感谢,，

Daniel

好吧，为了防止有人感兴趣，我们最终使用Apache Tika从odt获取内容，并使用以下正则表达式对其进行解析：

\$\{[\w\-\.]*\}