Java 从<;部门>;使用提卡

Java 从<;部门>;使用提卡,java,apache,xhtml,apache-tika,Java,Apache,Xhtml,Apache Tika,我有下面的xhtml文件,其中包含大约30-40个图像。该文件是自动生成的,图像的编号将更改,但是{html text}内容(实际上应该是)不会更改。我希望有人能给我指出正确的方向 我正在尝试解析/查找这些图像,以便将它们从image#.png重命名为{html text}.png HTML的子字符串: <div class="s8a6d62e8" style="">Top 10 ARP sources in terms of bits.</div> <div cl

我有下面的xhtml文件,其中包含大约30-40个图像。该文件是自动生成的,图像的编号将更改,但是{html text}内容(实际上应该是)不会更改。我希望有人能给我指出正确的方向

我正在尝试解析/查找这些图像,以便将它们从image#.png重命名为{html text}.png

HTML的子字符串:

<div class="s8a6d62e8" style="">Top 10 ARP sources in terms of bits.</div>
<div class="sbeea9846" style="">
    <img style="width: 701px; height: 526px; border: 0px" src="Final Test Report_3.files\Final Test Report_34.Png"></img>
</div>
<div class="s306f0049" style="">Figure 3 - Top Ten ARP MAC Sources</div>
<div class="s12d95b95" style="">
    <a name="Top Ten ARP MAC Destinations"><br></a>
</div>
<div class="s1a75bf07" style="">Top Ten ARP MAC Destinations</div>
<div class="s8a6d62e8" style="">Top 10 ARP destinations in terms of bits.</div>
<div class="sbeea9846" style="">
    <img style="width: 701px; height: 526px; border: 0px" src="Final Test Report_3.files\Final Test Report_35.Png"></img>
</div>
<div class="s306f0049" style="">Figure 4 - Top Ten ARP MAC Destinations</div>
<div class="s1a75bf07" style="">ARP MAC Conversations</div>
<div class="s8a6d62e8" style="">Conversation ring with ARP endpoints and conversations.</div>
<div class="sbeea9846" style="">
    <img style="width: 701px; height: 526px; border: 0px" src="Final Test Report_3.files\Final Test Report_36.Png"></img>
</div>
<div class="s306f0049" style="">Figure 5 - ARP MAC Conversations</div>

等等。

注意标签在标题所在的标签之前。标题显示在图像下方。似乎会生成SAX事件,因此当遇到IMG标记时,您需要将src属性存储在状态变量中,将其与下一个DIV标记的#CDATA耦合,并将其推送到列表中,然后清除状态变量。我唯一的问题是如果是SAX,为什么不直接使用SAX——为什么要使用Tika呢?Tika的HTMLParser在解析HTML片段时似乎比传统的SAX解析器有点宽容。如果HTML代码段不是格式良好的XML,SAX会抛出异常,Tika可以很高兴地解析您在问题中发布的代码段。似乎Tika不是为满足我的要求而设计的。它不是用来解析整个文档的。跳过“div”元素,忽略标记的“content”。我必须重写大多数处理程序,才能让它执行我需要的操作。
Final Test Report_3.files\Top Ten ARP MAC Sources.Png
Final Test Report_3.files\Top Ten ARP MAC Destinations.Png
Final Test Report_3.files\ARP MAC Conversations.Png