Java 如何以编程方式获取网站中所有页面的URL

Java 如何以编程方式获取网站中所有页面的URL,java,selenium-webdriver,web-crawler,Java,Selenium Webdriver,Web Crawler,我希望最好使用java实现这一点,或者如果有一种方法可以使用SeleniumWebDriver实现这一点,我不希望页面中出现链接。我想要一个结果,比如给出一个域中所有页面URL的列表。我不需要像树或xml那样使用它,只需要简单的URL即可您可以查找标记(如href或a),然后将链接存储在列表中 列表链接=driver.findElements(按.tagName(“href”) 你要找的东西通常被称为网络爬虫或网络蜘蛛。试试谷歌搜索。我用谷歌搜索了一下,大多数人都告诉我的是使用jsoup获取页面

我希望最好使用java实现这一点,或者如果有一种方法可以使用SeleniumWebDriver实现这一点,我不希望页面中出现链接。我想要一个结果,比如给出一个域中所有页面URL的列表。我不需要像树或xml那样使用它,只需要简单的URL即可

您可以查找标记(如href或a),然后将链接存储在列表中


列表链接=driver.findElements(按.tagName(“href”)

你要找的东西通常被称为网络爬虫或网络蜘蛛。试试谷歌搜索。我用谷歌搜索了一下,大多数人都告诉我的是使用jsoup获取页面的链接并遍历这些链接,然后在这些页面中找到更多的链接,或者我也可以使用selenium webdriver进行类似的操作,但我不希望这样。这有点冗长,也不能解决我的目的,我的主页可能指向许多网站的50个链接,但我的网站只有4个页面,我的主页没有指向所有这四个页面的链接,然后只是为了获取页面,这会带来很大的开销。可能重复您尝试过的内容,结果如何?就像你在学校做的那样。。。请出示你的作品。:)这是获得问题答案的过程的一部分。它对你很有帮助,因为它迫使你调查自己的问题并仔细思考。它还向读者证明,你做了功课,并做出了合理的尝试来回答自己的问题。第三,它帮助读者发现并诊断问题,从而为您提供更好的答案,减少我们浪费的时间。