如何在java中从Html中提取Div标记中的文本

如何在java中从Html中提取Div标记中的文本,java,java-me,html-parsing,Java,Java Me,Html Parsing,嗨 我想提取div标记之间的文本 <div class="innercontenttxt"> <p>img border="1" align="left" height="170" width="324" vspace="3" hspace="2" src="/tmdbuserfiles/ramdev-balakrishna(1).jpg" alt="ramdev aide remanded, lakrishna acharya judicial remand, ram

我想提取
div
标记之间的文本

<div class="innercontenttxt"> 
<p>img border="1" align="left" height="170" width="324" vspace="3" hspace="2" src="/tmdbuserfiles/ramdev-balakrishna(1).jpg" alt="ramdev aide remanded, lakrishna acharya judicial remand, ramdev aide fake passport case, baba ramdev assistant judicial custody, balakrishna sent to judicial custody, yoga guru ramdev assistant remanded, yoga guru ramdev assistant balakrishna" />
Yoga guru Ramdev's aide Balakrishna Acharya remanded to 14 days judicial custody in a fake passport on Saturday. He was arrested yesterday after he failed to appear at a Dehradun court.
    <br />
    <br />
     Balakrishna Acharya, who is basically a Nepalese citizen, 
     is alleged to have submitted fake documents to procure a passport. 
     When he failed to appear in Dehradun court in connection with the case,
</p>  
</div>

img border=“1”align=“left”height=“170”width=“324”vspace=“3”hspace=“2”src=“/tmdbuserfiles/ramdev balakrishna(1).jpg”alt=“拉姆德夫助手还押、拉克里希纳·阿查里亚司法还押、拉姆德夫助手伪造护照案、巴巴·拉姆德夫助理司法羁押、巴拉克里希纳被送司法羁押、瑜伽大师拉姆德夫助手还押、瑜伽大师拉姆德夫助理巴拉克里希纳”/>
瑜伽大师拉姆德夫的助手巴拉克里希纳·阿查里亚(Balakrishna Acharya)周六以假护照被还押14天的司法拘留。他因未能在德拉敦法庭出庭而于昨日被捕。


巴拉克里希纳·阿查里亚基本上是尼泊尔公民, 被指控提交伪造文件以获取护照。 当他没有在Dehradun法院就此案出庭时,

提取后的结果应为:

拉姆德夫的助手阿拉克里希纳·阿查里亚被还押14天 周六,他被司法拘留在假护照里。他被捕了 昨天他没能在德拉敦法庭出庭,巴拉克里希纳 Acharya基本上是尼泊尔公民,据称有 提交伪造文件以获取护照。当他未能 在Dehradun法院就本案出庭时,法院 签发了一份无法保释的逮捕令,并于昨日将其逮捕


您可能想尝试一些Java HTML解析器库

HTML解析器-


jsoup-

这个问题似乎与此类似。 假设您已经将html源代码存储在名为htmlPage的字符串变量中

int divIndex = htmlPage.indexOf("<div");
divIndex = htmlPage.indexOf(">", divIndex);

int endDivIndex = htmlPage.indexOf("</div>", divIndex);
String content = htmlPage.substring(divIndex + 1, endDivIndex);
int-dividex=htmlPage.indexOf(“,dividex);
int-endDivIndex=htmlPage.indexOf(“,divIndex);
String content=htmlPage.substring(divIndex+1,endDivIndex);

Hii,这是我为j2me应用程序开发的,在那里,我没有java.net.url类,所以除了这个类,还有什么可以满足我需要的解析器吗?我尝试过不同的HTML解析器,如Jericho HTML解析器、HTML解析器、J-soup解析器,但这些都在j2me中不受支持。您需要一个通用的解决方案来解析
div
标记或特定于您的案例?对于我的案例,是否有不使用java.net.url类的解析器可用?您能帮助我吗?