使用Xpath提取html标记的完整内容_Html_Xpath

使用Xpath提取html标记的完整内容

html xpath

使用Xpath提取html标记的完整内容,html,xpath,Html,Xpath,我有一组html页面（对此我没有任何控制权），需要将li标记的完整内容提取为单个文本块，包括空白和除li标记对以外的所有标记。我使用的是HTMLXPath解析器1.0（对此我别无选择）输入html看起来像 [S1]这里是第一段文字标签：更多文本更多文本注: GRO参考是注释文本没有XPath函数以文本形式返回HTML标记。您没有提到是否通过编程语言进行访问，但我将使用代码来执行此操作读入HTML源代码并手动对其进行分析。请尝试/*[@class='gs

我有一组html页面（对此我没有任何控制权），需要将li标记的完整内容提取为单个文本块，包括空白和除li标记对以外的所有标记。我使用的是HTMLXPath解析器1.0（对此我别无选择）

输入html看起来像



[S1]这里是第一段文字




标签：




更多文本


更多文本






注:




GRO参考是注释文本

没有XPath函数以文本形式返回HTML标记。您没有提到是否通过编程语言进行访问，但我将使用代码来执行此操作

读入HTML源代码并手动对其进行分析。

请尝试

/*[@class='gs-source-item']/*

-这将返回列表中元素的集合。@tomredfern将返回内部标记的内容，但不返回顶层文本。很抱歉，我下次会正确阅读您的问题。不幸，这不是一个选项。但是，//node（）似乎会返回标记和文本；我只是不知道如何连接结果。可能是用？不幸的是，这不起作用（我坚持使用Xpath 1.0，我认为string join是2.0？concat也不起作用，因为节点集的字符串值是第一个节点的字符串值）。