Java 用Jsoup刮削

Java 用Jsoup刮削,java,jsoup,Java,Jsoup,我需要从这个页面收集数据,但问题是我需要的是每个口袋妖怪的链接,所以第一个是“/wiki/Bulbasaur(Pok%C3%A9mon)”(之后我只需要添加“bulbapedia.bulbagarden.net”在前面,但我不知道如何获取所有这些。我看到了一些示例,但在这里我没有看到任何对我有帮助的东西。我看到的这些示例用于循环,通过获取div中的数据,但这些链接似乎不属于任何div,而只是主要的大div 那么,有人知道我怎样才能刮到这一页吗?这里有一个解决方案: Document doc =

我需要从这个页面收集数据,但问题是我需要的是每个口袋妖怪的链接,所以第一个是“/wiki/Bulbasaur(Pok%C3%A9mon)”(之后我只需要添加“bulbapedia.bulbagarden.net”在前面,但我不知道如何获取所有这些。我看到了一些示例,但在这里我没有看到任何对我有帮助的东西。我看到的这些示例用于循环,通过获取div中的数据,但这些链接似乎不属于任何div,而只是主要的大div

那么,有人知道我怎样才能刮到这一页吗?

这里有一个解决方案:

Document doc = Jsoup.connect("http://bulbapedia.bulbagarden.net/wiki/List_of_Pok%C3%A9mon_by_National_Pok%C3%A9dex_number").get();


for( Element element : doc.select("td > span.plainlinks > a") )
{
    /* 
     * You can do further things here - for this example we 
     * only print the absolut url of each link.
     */
    System.out.println(element.absUrl("href"));
}
这将为您提供每个口袋妖怪链接的绝对URL:

http://bulbapedia.bulbagarden.net/wiki/Bulbasaur_(Pok%C3%A9mon)
http://bulbapedia.bulbagarden.net/wiki/Ivysaur_(Pok%C3%A9mon)
http://bulbapedia.bulbagarden.net/wiki/Venusaur_(Pok%C3%A9mon)
http://bulbapedia.bulbagarden.net/wiki/Charmander_(Pok%C3%A9mon)
...
但是,如果您需要相对的URL,只需将
元素.absUrl(“href”)
替换为
元素.attr(“href”)

结果:

/wiki/Bulbasaur_(Pok%C3%A9mon)
/wiki/Ivysaur_(Pok%C3%A9mon)
/wiki/Venusaur_(Pok%C3%A9mon)
/wiki/Charmander_(Pok%C3%A9mon)
...
有关这方面的解释,请参见:。此处可以找到一些好的示例: