Java 解析html中的分页。使用jsoup_Java_Regex_Jsoup

Java 解析html中的分页。使用jsoup

java regex

Java 解析html中的分页。使用jsoup,java,regex,jsoup,Java,Regex,Jsoup,我正在尝试解析网站，以获取有关商店商品的一些信息。但我有一些问题：如何解析分页。我在html上找到了一些关于一些URL的信息，比如：“1,2,3..25”页的商品。但我能想象的最好的方法是如何解析这个url，只需获取url，获取最后一页，并对这个页面进行迭代：例如，我使用方法Jsoup.connect（website.com）.get（）.getElementsByClass（“someclass”）获取的url； https://somewebsite.com/somegoods/some

我正在尝试解析网站，以获取有关商店商品的一些信息。但我有一些问题：如何解析分页。我在html上找到了一些关于一些URL的信息，比如：“1,2,3..25”页的商品。但我能想象的最好的方法是如何解析这个url，只需获取url，获取最后一页，并对这个页面进行迭代：例如，我使用方法Jsoup.connect（website.com）.get（）.getElementsByClass（“someclass”）获取的url；

https://somewebsite.com/somegoods/somecategory/page=1/, https://somewebsite.com/somegoods/somecategory/page=2/,
https://somewebsite.com/somegoods/somecategory/page=24/

但有时URL会像：

https://somewebsite.com/somegoods/somecategory/filter/page=1;一些信息/
https://somewebsite.com/somegoods/somecategory/filter/page=2;一些信息/
https://somewebsite.com/somegoods/somecategory/filter/page=13;稍后提供一些信息/

你能帮我吗？我曾尝试使用regex，但我不知道如何编写它来获取“page=”之后和之前/或；

我想我可以得到页面的最后一个数字，从1到最后一个进行迭代，然后将其放入URL并保存到URL的哈希集

捕获组可用于从与正则表达式匹配的字符串中获取特定子字符串。括号标记捕获组。因此，页码本身的正则表达式将是

“page=（\\d+）”

。要从匹配中获取组的thr值，请使用Matcher对象中的

group

方法。如果尚未使用Matcher对象，则可以从模式中创建一个对象。另外，您应该注意，您的第一个组是索引1（索引0给出了整个匹配字符串）

有关更多信息：分组方法：

Matcher:

非常感谢，我的代码现在可以运行了，但不是很可读，但它可以运行！