Html XPath查询:提取LI&;之间的文本;A标签
在GoogleSheets中,为了我自己的娱乐,我试图将“四风谷中的帆船”显示为下面代码中的一个字符串 我想对大约600个页面执行此操作,所有页面的HTML中都有相同的结构(没有ID)。我只会对UL标签之间的第一个列表感兴趣Html XPath查询:提取LI&;之间的文本;A标签,html,xpath,web-scraping,google-sheets,Html,Xpath,Web Scraping,Google Sheets,在GoogleSheets中,为了我自己的娱乐,我试图将“四风谷中的帆船”显示为下面代码中的一个字符串 我想对大约600个页面执行此操作,所有页面的HTML中都有相同的结构(没有ID)。我只会对UL标签之间的第一个列表感兴趣 <h3>Source:</h3> <ul> <li> <a href='http://www.wowhead.com/npc=62346' target='_blank'>Galleon</a&g
<h3>Source:</h3>
<ul>
<li>
<a href='http://www.wowhead.com/npc=62346' target='_blank'>Galleon</a> in Valley of the Four Winds.
</li>
<li>
<a href='/bmah.php'>The Black Market Auction House</a> (rarely)
</li>
</ul>
我尝试添加一个“//li |”,但它带回了所有的列表&不是我希望的文本,这是有道理的,但我不知道如何进一步进行
=IMPORTXML(URL, "//li | //a[@href[starts-with(.,'http://www.wowhead.com/npc')]]")
我试着通读指南和指南,但在这一点上,我只是挣扎和有点迷失
希望一切都有意义,非常感谢您的回复。这一条正在处理您的样本
xmllint--html--xpath'字符串(//li[a[@href]以(,)开头http://www.wowhead.com/npc“”]]])test.html
四风谷中的帆船。
谢谢
我已经为GoogleSheets重新构建了它&它将每个部分发布在不同的单元格中,但是一个快速连接已经构建了一个完整的字符串
=IMPORTXML(A5,"//li[a[@href[starts-with(.,""wowhead.com/npc"")]]]")
=IMPORTXML(A5,"//li[a[@href[starts-with(.,""wowhead.com/npc"")]]]")