Java 如何以编程方式获取网站中所有页面的URL_Java_Selenium Webdriver_Web Crawler

Java 如何以编程方式获取网站中所有页面的URL

java selenium-webdriver web-crawler

Java 如何以编程方式获取网站中所有页面的URL,java,selenium-webdriver,web-crawler,Java,Selenium Webdriver,Web Crawler,我希望最好使用java实现这一点，或者如果有一种方法可以使用SeleniumWebDriver实现这一点，我不希望页面中出现链接。我想要一个结果，比如给出一个域中所有页面URL的列表。我不需要像树或xml那样使用它，只需要简单的URL即可您可以查找标记（如href或a），然后将链接存储在列表中列表链接=driver.findElements（按.tagName（“href”）你要找的东西通常被称为网络爬虫或网络蜘蛛。试试谷歌搜索。我用谷歌搜索了一下，大多数人都告诉我的是使用jsoup获取页面

我希望最好使用java实现这一点，或者如果有一种方法可以使用SeleniumWebDriver实现这一点，我不希望页面中出现链接。我想要一个结果，比如给出一个域中所有页面URL的列表。我不需要像树或xml那样使用它，只需要简单的URL即可

您可以查找标记（如href或a），然后将链接存储在列表中

列表链接=driver.findElements（按.tagName（“href”）

你要找的东西通常被称为网络爬虫或网络蜘蛛。试试谷歌搜索。我用谷歌搜索了一下，大多数人都告诉我的是使用jsoup获取页面的链接并遍历这些链接，然后在这些页面中找到更多的链接，或者我也可以使用selenium webdriver进行类似的操作，但我不希望这样。这有点冗长，也不能解决我的目的，我的主页可能指向许多网站的50个链接，但我的网站只有4个页面，我的主页没有指向所有这四个页面的链接，然后只是为了获取页面，这会带来很大的开销。可能重复您尝试过的内容，结果如何？就像你在学校做的那样。。。请出示你的作品。：）这是获得问题答案的过程的一部分。它对你很有帮助，因为它迫使你调查自己的问题并仔细思考。它还向读者证明，你做了功课，并做出了合理的尝试来回答自己的问题。第三，它帮助读者发现并诊断问题，从而为您提供更好的答案，减少我们浪费的时间。