Url Tcl Tk显示所有可用链接

Url Tcl Tk显示所有可用链接,url,hyperlink,tree,tcl,tk,Url,Hyperlink,Tree,Tcl,Tk,Tcl/Tk中是否有显示链接中所有可用URL的功能?我想开始编程一个webcrawler与一些功能 For example: the user types this: "www.testsite.com" and he will get that: "www.testsite.com/dir1/" "www.testsite.com/dir2/" e.g. 还是用其他语言如phyton编程更好 br使用http和tDOM包非常容易。您只需要了解一点XPath package require h

Tcl/Tk中是否有显示链接中所有可用URL的功能?我想开始编程一个webcrawler与一些功能

For example:
the user types this:
"www.testsite.com"
and he will get that:
"www.testsite.com/dir1/"
"www.testsite.com/dir2/"
e.g.
还是用其他语言如phyton编程更好


br

使用http和tDOM包非常容易。您只需要了解一点XPath

package require http
package require tdom

set tok [http::geturl http://example.com/index.html]
set html [http::data $tok]
http::cleanup $tok

set doc [dom parse -html $html]
foreach anchor [$doc selectNodes "//a"] {
    puts [$anchor @href]
}

当我在公司内部网首页上运行它时,它似乎可以工作,尽管我不认为我会分发链接列表……如果文档有
a
元素,而没有
href
属性(例如名称锚定),可以使用
foreach href[$doc selectNodes{//a/@href}]{puts[lindex$href end]}
@PeterLewerin我认为在这种情况下,XPath最好是
//a[@href]
;你不需要属性节点,你只需要指定它们在那里,这也行。当我只想要属性的值而不关心节点时,我会像我之前的评论那样做。只是属性节点在DOM中很奇怪,我尽量避免直接查看它们。;-)