使用Xpath提取html标记的完整内容
我有一组html页面(对此我没有任何控制权),需要将li标记的完整内容提取为单个文本块,包括空白和除li标记对以外的所有标记。我使用的是HTMLXPath解析器1.0(对此我别无选择) 输入html看起来像使用Xpath提取html标记的完整内容,html,xpath,Html,Xpath,我有一组html页面(对此我没有任何控制权),需要将li标记的完整内容提取为单个文本块,包括空白和除li标记对以外的所有标记。我使用的是HTMLXPath解析器1.0(对此我别无选择) 输入html看起来像 [S1]这里是第一段文字 标签: 更多文本 更多文本 注: GRO参考是注释文本 没有XPath函数以文本形式返回HTML标记。您没有提到是否通过编程语言进行访问,但我将使用代码来执行此操作 读入HTML源代码并手动对其进行分析。请尝试/*[@class='gs
-
[S1]这里是第一段文字
标签:
更多文本
更多文本
注:
GRO参考是注释文本
没有XPath函数以文本形式返回HTML标记。您没有提到是否通过编程语言进行访问,但我将使用代码来执行此操作
读入HTML源代码并手动对其进行分析。请尝试
/*[@class='gs-source-item']/*
-这将返回列表中元素的集合。@tomredfern将返回内部标记的内容,但不返回顶层文本。很抱歉,我下次会正确阅读您的问题。不幸,这不是一个选项。但是,//node()似乎会返回标记和文本;我只是不知道如何连接结果。可能是用?不幸的是,这不起作用(我坚持使用Xpath 1.0,我认为string join是2.0?concat也不起作用,因为节点集的字符串值是第一个节点的字符串值)。