Java 在跟踪顺序的同时导航XML文件

Java 在跟踪顺序的同时导航XML文件,java,xml,dom,Java,Xml,Dom,我需要将XML文件转换为IOB格式 XML文件表示Latex书面论文的结构,即包含章节和小节。在这种表示法中,节被编码为正文,然后我有一个标题,然后是段落或小节 例如: <DIV DEPTH="1"> <HEADER ID="H-8"> Practical Results </HEADER> <P TYPE="TXT"> <S ID="S-56" TYPE="TXT"> To assess its performance , <

我需要将XML文件转换为IOB格式

XML文件表示Latex书面论文的结构,即包含章节和小节。在这种表示法中,节被编码为正文,然后我有一个标题,然后是段落或小节

例如:

<DIV DEPTH="1"> 
<HEADER ID="H-8"> Practical Results </HEADER>
<P TYPE="TXT"> 
<S ID="S-56" TYPE="TXT"> To assess its performance , <REF REFID="R-12" ID="C-36">Grover et al. 1993</REF> tried various methods . </S> 
<S ID="S-57" TYPE="TXT"> The grammar is defined in metagrammatical formalism which is compiled into a unification-based ` object grammar ' -- a syntactic variant of the Definite Clause Grammar formalism <REF REFID="R-21" ID="C-37">Pereira and Warren 1980</REF> -- containing 84 features and 782 phrase structure rules . </S> 
<DIV DEPTH="2"> 
<HEADER ID="H-9"> Comparing the Parsers </HEADER> 
<P TYPE="TXT"> 
<S ID="S-61" TYPE="TXT"> In the first experiment , the ANLT grammar was loaded and a set of sentences was input to each of the three parsers . </S> 
</P>
<IMAGE ID="I-0"/>
</DIV>
等等

我知道一些Java中的DOM解析(例如,我已经使用jdom2有一段时间了),但我不知道如何保持文本的顺序:例如,我想获取REF标记的内容(在S中,请看示例),但是来自其父级的文本在REF标记之前和之后扩展


有什么建议吗?应该相当简单,但像“在一定深度后剥离XML标记”这样的搜索对我没有帮助:-(

我会使用基于事件的XML解析器,如sTax、sax等。然后,您可以在处理每个标记时跟踪级别、顺序和其他内容

Practical/B-Header Results/I-Header ./O 
To/B-Text assess/I-Text its/I-Text performance/I-Text ,/I-Text Grover/I-Text et/I-Text al./I-Text tried/I-Text various/I-Text methods/I-Text ./O 
The/B-Text grammar/I-Text ... ./O