使用Java库从ODT文档中提取字段

使用Java库从ODT文档中提取字段,java,parsing,field,data-extraction,odt,Java,Parsing,Field,Data Extraction,Odt,我需要使用Java库或代码从ODT文档的内容中提取字段标记。我知道odt是某种压缩文件,它的内容在content.xml文件中。当然,我可以提取文件,打开content.xml并解析它,但我相信存在一些更高级别的代码。例如,内容如下所示: <text:p text:style-name="Standard">Hi ${name}!</text:p> <text:p text:style-name="Standard"> <text:text-in

我需要使用Java库或代码从ODT文档的内容中提取字段标记。我知道odt是某种压缩文件,它的内容在content.xml文件中。当然,我可以提取文件,打开content.xml并解析它,但我相信存在一些更高级别的代码。例如,内容如下所示:

<text:p text:style-name="Standard">Hi ${name}!</text:p>    
<text:p text:style-name="Standard">
<text:text-input text:description="JOOScript">$nome</text:text-input></text:p>
Hi${name}!
$nome
我想将字段提取为${name}和$nome

我知道ApacheTika可以用于此,但我还没有发现一个实际显示字段提取的示例。我相信这是因为我使用的字段是非结构化文本,而不是输入字段标记

提前感谢,,
Daniel

好吧,为了防止有人感兴趣,我们最终使用Apache Tika从odt获取内容,并使用以下正则表达式对其进行解析:

\$\{[\w\-\.]*\}