Java 从不一致的HTML页面收集数据-JSoup

Java 从不一致的HTML页面收集数据-JSoup,java,jsoup,Java,Jsoup,我试图从多个页面获取大量数据,但并不总是一致的。下面是我正在使用的html的一个示例!: 我需要得到这样的东西:Team | Team | Result,将所有结果放入不同的变量或列表中 我只是需要一些关于从哪里开始的帮助,因为我在多个页面上使用的主表在每个人身上都不一样 以下是我迄今为止的java: try { Document team_page = Jsoup.connect("http://www.soccerstats.com/team.asp?league=

我试图从多个页面获取大量数据,但并不总是一致的。下面是我正在使用的html的一个示例!:

我需要得到这样的东西:Team | Team | Result,将所有结果放入不同的变量或列表中

我只是需要一些关于从哪里开始的帮助,因为我在多个页面上使用的主表在每个人身上都不一样

以下是我迄今为止的java:

    try {
        Document team_page = Jsoup.connect("http://www.soccerstats.com/team.asp?league=" + league + "&teamid=" + teamNumber).get();
        Element home_team = team_page.select("[class=homeTitle]").first();
        String teamName = home_team.text();
        System.out.println(teamName + "'s Latest Results: ");

        Elements main_page = team_page.select("[class=stat]");
        System.out.println(main_page);

    } catch (IOException e) {
        System.out.println("unable to parse content");
    }
我从不同的项目中获得联赛和球队ID


谢谢

是的。这是网页抓取的问题之一

您必须找出一个或多个启发式方法,从需要访问的所有页面中提取所需信息。没有什么灵丹妙药。只是努力工作。(如果网站改变了页面布局,你就得从头再来一次。)


更好的方法是使用站点的RESTfulAPI以XML或JSON的形式请求信息。。。假设它们存在并可供您使用


(如果您继续使用网络抓取方法,请检查网站的服务条款,确保您的活动是可接受的。)

更新HTML,这就是我需要从中提取的全部内容: