Java 解析html中的分页。使用jsoup

Java 解析html中的分页。使用jsoup,java,regex,jsoup,Java,Regex,Jsoup,我正在尝试解析网站,以获取有关商店商品的一些信息。 但我有一些问题:如何解析分页。 我在html上找到了一些关于一些URL的信息,比如:“1,2,3..25”页的商品。但我能想象的最好的方法是如何解析这个url,只需获取url,获取最后一页,并对这个页面进行迭代:例如,我使用方法Jsoup.connect(website.com).get().getElementsByClass(“someclass”)获取的url; https://somewebsite.com/somegoods/some

我正在尝试解析网站,以获取有关商店商品的一些信息。 但我有一些问题:如何解析分页。 我在html上找到了一些关于一些URL的信息,比如:“1,2,3..25”页的商品。但我能想象的最好的方法是如何解析这个url,只需获取url,获取最后一页,并对这个页面进行迭代:例如,我使用方法Jsoup.connect(website.com).get().getElementsByClass(“someclass”)获取的url;
https://somewebsite.com/somegoods/somecategory/page=1/, https://somewebsite.com/somegoods/somecategory/page=2/,
https://somewebsite.com/somegoods/somecategory/page=24/
但有时URL会像:
https://somewebsite.com/somegoods/somecategory/filter/page=1;一些信息/
https://somewebsite.com/somegoods/somecategory/filter/page=2;一些信息/
https://somewebsite.com/somegoods/somecategory/filter/page=13;稍后提供一些信息/

你能帮我吗?我曾尝试使用regex,但我不知道如何编写它来获取“page=”之后和之前/或;
我想我可以得到页面的最后一个数字,从1到最后一个进行迭代,然后将其放入URL并保存到URL的哈希集

捕获组可用于从与正则表达式匹配的字符串中获取特定子字符串。括号标记捕获组。因此,页码本身的正则表达式将是
“page=(\\d+)”
。要从匹配中获取组的thr值,请使用Matcher对象中的
group
方法。如果尚未使用Matcher对象,则可以从模式中创建一个对象。另外,您应该注意,您的第一个组是索引1(索引0给出了整个匹配字符串)

有关更多信息: 分组方法:
Matcher:

非常感谢,我的代码现在可以运行了,但不是很可读,但它可以运行!