Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/xpath/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Html 用于序列之间的文本的Xpath?_Html_Xpath - Fatal编程技术网

Html 用于序列之间的文本的Xpath?

Html 用于序列之间的文本的Xpath?,html,xpath,Html,Xpath,我需要在相应的H2标题下提取三组段落文本(“研究重点”、“过去经验”和“教育”-所有这些都是分开的)。我看到两个挑战: 文本没有固定的段落数(即,在下面的示例中,“研究焦点”下面有3段,但可能是1或5段 虽然我一次只需要在一个对应的H2下提取一组段落文本,但H2s和文本附近有多个部分。这就是为什么我现在在这里指的是三个部分 我试过使用下面的兄弟姐妹,例如 //*[.='Research Focus']/following-sibling::*[1] …但这显然是不对的 换言之: “研究焦点”文

我需要在相应的H2标题下提取三组段落文本(“研究重点”、“过去经验”和“教育”-所有这些都是分开的)。我看到两个挑战:

  • 文本没有固定的段落数(即,在下面的示例中,“研究焦点”下面有3段,但可能是1或5段

  • 虽然我一次只需要在一个对应的H2下提取一组段落文本,但H2s和文本附近有多个部分。这就是为什么我现在在这里指的是三个部分

  • 我试过使用下面的兄弟姐妹,例如

    //*[.='Research Focus']/following-sibling::*[1]
    
    …但这显然是不对的

    换言之:

  • “研究焦点”文本的正确Xpath是什么
  • “过去经验”文本的正确Xpath是什么
  • “教育”文本的正确Xpath是什么
  • 多谢各位

    <div id="main-content-with-sidebar" class="col-sm-9">
    
      <h2>Research Focus</h2>
        <p>The quick brown fox jumped over the lazy dog. The quick brown fox jumped over the lazy dog.</p>
        <p>Lorem ipsum dolor sit amet, consectetur adipiscing elit. Vestibulum urna neque, tincidunt id tincidunt ac, varius non felis. Lorem ipsum dolor sit amet, consectetur adipiscing elit. Vestibulum urna neque, tincidunt id tincidunt ac, varius non felis.</p>
        <p>Sed ut perspiciatis unde omnis iste natus error sit voluptatem accusantium doloremque laudantium, totam rem aperiam, eaque ipsa quae ab illo inventore veritatis et quasi architecto beatae vitae dicta sunt explicabo. Sed ut perspiciatis unde omnis iste natus error sit voluptatem accusantium doloremque laudantium, totam rem aperiam, eaque ipsa quae ab illo inventore veritatis et quasi architecto beatae vitae dicta sunt explicabo.</p>
    
        <h2>Past Experience</h2>
        <p>Sed ut perspiciatis unde omnis iste natus error sit voluptatem accusantium doloremque laudantium, totam rem aperiam, eaque ipsa quae ab illo inventore veritatis et quasi architecto beatae vitae dicta sunt explicabo. Sed ut perspiciatis unde omnis iste natus error sit voluptatem accusantium doloremque laudantium, totam rem aperiam, eaque ipsa quae ab illo inventore veritatis et quasi architecto beatae vitae dicta sunt explicabo.</p>
    
        <h2>Education</h2>
        <p>The quick brown fox jumped over the lazy dog. The quick brown fox jumped over the lazy dog.</p>
    
        <h2>List heading</h2>
        <ul class="staffBlogList">
            <li>List items I don’t need</li>
            <li>List items I don’t need</li>
            <li>List items I don’t need</li>
        </ul>
    
        <h2>Another list heading</h2>
        <ul class="staffCitationList">
            <li>List items I don’t need</li>
            <li>List items I don’t need</li>
            <li>List items I don’t need</li>
        </ul>
    
    
    </div>
    
    
    研究重点
    敏捷的棕色狐狸跳过了懒狗。敏捷的棕色狐狸跳过了懒狗

    同侧耳耳,耳鼻喉管,耳鼻喉管,耳鼻喉管,耳鼻喉管,耳鼻喉管,耳鼻喉管,耳鼻喉管,耳鼻喉管,耳鼻喉管,耳鼻喉管,耳鼻喉管,耳鼻喉管,耳鼻喉管,耳鼻喉管,耳鼻喉管,耳鼻喉管,耳鼻喉管

    对于所有存在错误的人来说,必须清楚地看到他们的赞美、对他人的尊重、对发明者的真实性的尊重和对他人的尊重。对于所有存在错误的人来说,必须清楚地看到他们的赞美、对他人的尊重、对他人的尊重和对他人的尊重发明者的真实性和准建筑设计师必须解释清楚

    过去的经验 对于所有存在错误的人来说,必须清楚地看到他们的赞美、对他人的尊重、对发明者的真实性的尊重和对他人的尊重。对于所有存在错误的人来说,必须清楚地看到他们的赞美、对他人的尊重、对他人的尊重和对他人的尊重发明者的真实性和准建筑设计师必须解释清楚

    教育类 敏捷的棕色狐狸跳过了懒狗。敏捷的棕色狐狸跳过了懒狗

    列表标题
    • 列出我不需要的项目
    • 列出我不需要的项目
    • 列出我不需要的项目
    另一个列表标题
    • 列出我不需要的项目
    • 列出我不需要的项目
    • 列出我不需要的项目

    想法是首先得到你想要的
    h2
    标记,然后得到下面的h2,然后得到你想要的
    h2
    标记之前的所有兄弟姐妹。

    真正的任务是什么-用p children找到h2?得到h2和p?只得到p?你应该明确地显示你想要选择的。你还应该接受其中的两个以上对于之前的15个问题,您已经收到了很好的答案。非常感谢。太好了。1.我将尝试解包…
    //h2[包含(,“研究重点”)]
    ^start point
    /following sibling::h2[1]
    ^结束点,1是H2的第一个实例,不包括我们从前面的兄弟姐妹::p开始的实例[前面的兄弟姐妹::H2[包含(,“研究重点”)]^我知道这会得到我的段落,但我不知道如果这些标题不是包含在H2s中,而是包含在《聚焦研究》中,所有的都在同一个级别?是否有一个Xpath可以同时容纳这两种结构?只要将h2更改为span我想我是从一组可以将标题放在H2中,也可以将标题放在P/strong/span中……要么/要么……是否有办法适应不确定性?您应该用该结构创建一个问题。
    1: '//h2[contains(., "Research Focus")]/following-sibling::h2[1]/preceding-sibling::p[preceding-sibling::h2[contains(., "Research Focus")]]'
    
    2: '//h2[contains(., "Past Experience")]/following-sibling::h2[1]/preceding-sibling::p[preceding-sibling::h2[contains(., "Past Experience")]]'
    
    3: '//h2[contains(., "Education")]/following-sibling::h2[1]/preceding-sibling::p[preceding-sibling::h2[contains(., "Education")]]'