Java 通过jsoup从表（html）中获取除div标记之外的数据_Java_Jsoup

Java 通过jsoup从表（html）中获取除div标记之外的数据

java

Java 通过jsoup从表（html）中获取除div标记之外的数据,java,jsoup,Java,Jsoup,我有html代码： <table width="100%" cellpadding="5" cellspacing="2" class="zebra"> <tr> <td colspan="5"> <div class="paginator"> <a href="http://some_link">2</a>  </div> <

我有html代码：

<table width="100%" cellpadding="5" cellspacing="2" class="zebra"> 
  <tr>
   <td colspan="5">
    <div class="paginator">
     <a href="http://some_link">2</a>&nbsp;         
    </div>
    </td>
  </tr>   
  <tr> 
   <td><a href="//i_need_only_this_link">some_value</a></td>       
  </tr> 
  <tr>      
   <td><a href="//i_need_only_this_link1">some_value</a></td>       
  </tr> 
  <tr>
   <td colspan="2">
    <div class="paginator">        
     <a href="http://some_link">2</a>&nbsp;
    </div>
    </td>
  </tr> 
</table>

您可以使用以下代码

Document html = Jsoup.parse(htmlStr);

    for (Element e : html.getElementsByTag("a")) {

        if (!"div".equalsIgnoreCase(e.parentNode().nodeName())) {
            System.out.println(e.attr("href"));
        }

    }

在这里，我检查锚元素的父节点是否不是div。如果不是div，我将打印url。

使用

“abs:href”

可能是个好主意，不过：

Document html = Jsoup.parse(htmlStr);

    for (Element e : html.getElementsByTag("a")) {

        if (!"div".equalsIgnoreCase(e.parentNode().nodeName())) {
            System.out.println(e.attr("href"));
        }

    }