Java 获取标签之间的所有文本
真正复杂的情况。至少在我看来是这样。 我得到了什么?我可以强制转换到w3c节点的org.apache.xerces.dom.ElementNSImpl列表。没问题。所以基本上我会有一个列表 但我的任务是提取或标记之间的所有文本。当您看到xml示例时,就会更加清楚:Java 获取标签之间的所有文本,java,xml,Java,Xml,真正复杂的情况。至少在我看来是这样。 我得到了什么?我可以强制转换到w3c节点的org.apache.xerces.dom.ElementNSImpl列表。没问题。所以基本上我会有一个列表 但我的任务是提取或标记之间的所有文本。当您看到xml示例时,就会更加清楚: <Text> <FONT color="blue"> <U>fhdgfhdfghdfghdfg</U> </FONT> <FON
<Text>
<FONT color="blue">
<U>fhdgfhdfghdfghdfg</U>
</FONT>
<FONT color="blue">
<STRONG> dsfsfdfsghdfh:</STRONG>
</FONT>
<FONT color="blue"/>
<FONT color="blue">
<STRONG> 32423</STRONG>
</FONT>
<FONT color="blue">
<STRONG>-2013<br/>
</STRONG>
</FONT>
<STRONG>- dkjhgkjsdhgf</STRONG> sdafas asd fasdf 17-05-12<br/>- fgdhdfh gsdfg fdg 8-400 <br/>
<STRONG>- </STRONG>
<STRONG>dfdfgsdf </STRONG> dfgsdfgsdfgsdg.......................................<br/>-
<STRONG>sdfasdfasfdas </STRONG>asdfasasddfsdgdfsgsdf.......<br/>
</Text>
对于输出,我必须创建字符串,这将与“br”标记一样多。类似这样的内容将作为此xml的输出:
字符串1:FHDGFGHDFGHDFG DSFSFDGHDFH:32423-2013
管柱2:-DKJHGJSDHGF sdafas asd fasdf 17-05-12
串3:-fgdhdfh gsdfg fdg 8-400
字符串4:-DFGSDF dfgsdfgsdfgsdg
字符串5:-sdfasdfasfdas ASDFASSDDFSDGDFGSDF
有什么建议吗?您是否尝试过任何html解析库(比如jsoup)?您的示例中实际上没有打开的标记,也不支持打开的标记