Browser 从呈现的网页获取超链接信息的简便方法

Browser 从呈现的网页获取超链接信息的简便方法,browser,html-parsing,web-scraping,html-rendering,Browser,Html Parsing,Web Scraping,Html Rendering,我希望以编程方式执行此操作: 给定一个页面URL,我需要获取页面上的所有链接。重要的是,必须获得至少3条链接信息:锚文本、href属性值、链接在页面上的绝对位置 Java CSSBox库是一个选项,但尚未完全实现(无法同时获得href属性值,必须使用附加库(如Jsoup)进行一些额外的映射)。此外,CSSBox库呈现页面的速度非常慢 Javascript似乎拥有所有可用的功能,但我们必须将Javascript代码注入页面,并编写一个驱动程序来利用现有的浏览器。Python和Ruby等脚本语言也支

我希望以编程方式执行此操作:

给定一个页面URL,我需要获取页面上的所有链接。重要的是,必须获得至少3条链接信息:锚文本、
href
属性值、链接在页面上的绝对位置

Java CSSBox库是一个选项,但尚未完全实现(无法同时获得
href
属性值,必须使用附加库(如Jsoup)进行一些额外的映射)。此外,CSSBox库呈现页面的速度非常慢


Javascript似乎拥有所有可用的功能,但我们必须将Javascript代码注入页面,并编写一个驱动程序来利用现有的浏览器。Python和Ruby等脚本语言也支持这一点。我很难找到最方便的工具。

PHP的DOM操纵库对您有帮助吗

如果它不能呈现页面,我认为它不起作用。我还需要链接元素在页面上的绝对位置。@Terryl很抱歉我错过了这一部分,也许你可以尝试使用为什么不能这样解决@AndréRicardo谢谢,但是我怎么才能得到链接的绝对位置呢?那么也许这就是你想要的,一种连接基本url和相对url的方法