Xml 如何使用XPath或xgrep在Wikipedia中查找信息?
我想从维基百科上搜集一些(不是很多)信息。 假设我有一个大学列表和他们的维基百科页面。我可以使用xpath表达式查找该大学的网站(域)吗 举个例子,如果我得到了页面Xml 如何使用XPath或xgrep在Wikipedia中查找信息?,xml,xpath,wikipedia,Xml,Xpath,Wikipedia,我想从维基百科上搜集一些(不是很多)信息。 假设我有一个大学列表和他们的维基百科页面。我可以使用xpath表达式查找该大学的网站(域)吗 举个例子,如果我得到了页面 curl http://en.wikipedia.org/wiki/Vienna_University_of_Technology 此xpath表达式应找到域: http://www.tuwien.ac.at 理想情况下,这应该与Linuxxgrep命令行工具或等效工具配合使用。将h前缀绑定到http://www.w3.org
curl http://en.wikipedia.org/wiki/Vienna_University_of_Technology
此xpath表达式应找到域:
http://www.tuwien.ac.at
理想情况下,这应该与Linux
xgrep
命令行工具或等效工具配合使用。将h
前缀绑定到http://www.w3.org/1999/xhtml
命名空间URI:
/h:html/h:body/h:div[@id='content']
/h:div[@id='bodyContent']
/h:table[@class='infobox vcard']
/h:tr[h:th='Website']
/h:td/h:a/@href
此外,Wiki页面似乎是格式良好的XML(尽管其服务方式类似于text/html)。因此,如果您有一个XML文档,其页面URL如下:
<root>
<url>http://en.wikipedia.org/wiki/Vienna_University_of_Technology</url>
</root>
将
h
前缀绑定到http://www.w3.org/1999/xhtml
命名空间URI:
/h:html/h:body/h:div[@id='content']
/h:div[@id='bodyContent']
/h:table[@class='infobox vcard']
/h:tr[h:th='Website']
/h:td/h:a/@href
此外,Wiki页面似乎是格式良好的XML(尽管其服务方式类似于text/html)。因此,如果您有一个XML文档,其页面URL如下:
<root>
<url>http://en.wikipedia.org/wiki/Vienna_University_of_Technology</url>
</root>
嗨@Alejandro,看起来不错,但是我的xgrep工具不接受这个。有没有可以推荐的命令行(Unix/Linux)工具?嗨@Alejandro,看起来不错,但是我的xgrep工具不接受这个。有没有可以推荐的命令行(Unix/Linux)工具?