Java 获取标签之间的所有文本

Java 获取标签之间的所有文本,java,xml,Java,Xml,真正复杂的情况。至少在我看来是这样。 我得到了什么?我可以强制转换到w3c节点的org.apache.xerces.dom.ElementNSImpl列表。没问题。所以基本上我会有一个列表 但我的任务是提取或标记之间的所有文本。当您看到xml示例时,就会更加清楚: <Text> <FONT color="blue"> <U>fhdgfhdfghdfghdfg</U> </FONT> <FON

真正复杂的情况。至少在我看来是这样。 我得到了什么?我可以强制转换到w3c节点的org.apache.xerces.dom.ElementNSImpl列表。没问题。所以基本上我会有一个列表

但我的任务是提取或标记之间的所有文本。当您看到xml示例时,就会更加清楚:

<Text>
    <FONT color="blue">
        <U>fhdgfhdfghdfghdfg</U>
    </FONT>
    <FONT color="blue">
        <STRONG>      dsfsfdfsghdfh:</STRONG>
    </FONT>
    <FONT color="blue"/>
    <FONT color="blue">
        <STRONG> 32423</STRONG>
    </FONT>
    <FONT color="blue">
        <STRONG>-2013<br/>
        </STRONG>
    </FONT>
    <STRONG>- dkjhgkjsdhgf</STRONG> sdafas asd fasdf 17-05-12<br/>- fgdhdfh gsdfg fdg 8-400 <br/>
    <STRONG>- </STRONG>
    <STRONG>dfdfgsdf </STRONG> dfgsdfgsdfgsdg.......................................<br/>- 
    <STRONG>sdfasdfasfdas </STRONG>asdfasasddfsdgdfsgsdf.......<br/>
</Text>
对于输出,我必须创建字符串,这将与“br”标记一样多。类似这样的内容将作为此xml的输出:

字符串1:FHDGFGHDFGHDFG DSFSFDGHDFH:32423-2013

管柱2:-DKJHGJSDHGF sdafas asd fasdf 17-05-12

串3:-fgdhdfh gsdfg fdg 8-400

字符串4:-DFGSDF dfgsdfgsdfgsdg

字符串5:-sdfasdfasfdas ASDFASSDDFSDGDFGSDF


有什么建议吗?

您是否尝试过任何html解析库(比如jsoup)?您的示例中实际上没有打开的标记,也不支持打开的标记