Html XPath查询：提取LI&；之间的文本；A标签_Html_Xpath_Web Scraping_Google Sheets

Html XPath查询：提取LI&；之间的文本；A标签

html xpath web-scraping google-sheets

Html XPath查询：提取LI&；之间的文本；A标签,html,xpath,web-scraping,google-sheets,Html,Xpath,Web Scraping,Google Sheets,在GoogleSheets中，为了我自己的娱乐，我试图将“四风谷中的帆船”显示为下面代码中的一个字符串我想对大约600个页面执行此操作，所有页面的HTML中都有相同的结构（没有ID）。我只会对UL标签之间的第一个列表感兴趣 <h3>Source:</h3> <ul> <li> <a href='http://www.wowhead.com/npc=62346' target='_blank'>Galleon</a&g

在GoogleSheets中，为了我自己的娱乐，我试图将“四风谷中的帆船”显示为下面代码中的一个字符串

我想对大约600个页面执行此操作，所有页面的HTML中都有相同的结构（没有ID）。我只会对UL标签之间的第一个列表感兴趣

<h3>Source:</h3>
<ul>
  <li>
    <a href='http://www.wowhead.com/npc=62346' target='_blank'>Galleon</a> in Valley of the Four Winds.
  </li>
  <li>
    <a href='/bmah.php'>The Black Market Auction House</a> (rarely)
  </li>  
</ul>

我尝试添加一个“//li |”，但它带回了所有的列表&不是我希望的文本，这是有道理的，但我不知道如何进一步进行

=IMPORTXML(URL, "//li | //a[@href[starts-with(.,'http://www.wowhead.com/npc')]]")

我试着通读指南和指南，但在这一点上，我只是挣扎和有点迷失

希望一切都有意义，非常感谢您的回复。

这一条正在处理您的样本

xmllint--html--xpath'字符串（//li[a[@href]以（，）开头http://www.wowhead.com/npc“”]]]）test.html


四风谷中的帆船。

谢谢

我已经为GoogleSheets重新构建了它&它将每个部分发布在不同的单元格中，但是一个快速连接已经构建了一个完整的字符串

 =IMPORTXML(A5,"//li[a[@href[starts-with(.,""wowhead.com/npc"")]]]")

 =IMPORTXML(A5,"//li[a[@href[starts-with(.,""wowhead.com/npc"")]]]")