使用XPath从HTML中提取信息

使用XPath从HTML中提取信息,html,xpath,Html,Xpath,我有一个html片段,是从我正在处理的网页的源代码中提取的: <span itemprop="homeLocation" itemscope itemtype="http://schema.org/Place"><meta itemprop="name" content="Kansas"/> 和类似的尝试,但似乎找不到匹配。我不明白我做错了什么 如有任何建议,将不胜感激 您的xPath绝对有效。 问题在于xml 关闭span标记 为itemscope属性设置一些值 最重

我有一个html片段,是从我正在处理的网页的源代码中提取的:

<span itemprop="homeLocation" itemscope itemtype="http://schema.org/Place"><meta itemprop="name" content="Kansas"/>
和类似的尝试,但似乎找不到匹配。我不明白我做错了什么


如有任何建议,将不胜感激

您的xPath绝对有效。 问题在于xml

  • 关闭
    span
    标记
  • itemscope
    属性设置一些值
  • 最重要的是。您尝试使用的xPath检查器似乎有一些错误。勾选这个:

    我使用过的Xml:

        <span 
          itemprop="homeLocation"
          itemscope=""
          itemtype="http://schema.org/Place">
                 <meta itemprop="name" content="Kansas"/>
      </span>
    

    你能用
    //span…
    元素代替
    //*…
    吗?是的,V先生,我也试过了,没什么区别!请提供更多上下文。还请注意,您提供的片段格式不正确:
    itemscope
    没有值,并且
    span
    没有关闭。好的,我将添加更多信息……另外,我同意,
    itemscope
    没有值,但是我没有编写代码,我也无法更改它……如果没有正确的xml,您将无法使用XPath。您应该使用允许处理无效XML的外部库。
        <span 
          itemprop="homeLocation"
          itemscope=""
          itemtype="http://schema.org/Place">
                 <meta itemprop="name" content="Kansas"/>
      </span>
    
    Attribute='content="Kansas"'