Text 如何编写XPath来捕获未标记的文本_Text_Xpath_Screen Scraping

Text 如何编写XPath来捕获未标记的文本

text xpath

Text 如何编写XPath来捕获未标记的文本,text,xpath,screen-scraping,Text,Xpath,Screen Scraping,我试图从一个网站上删除客户评论，结果遇到了一个有趣的设置 <div class="Review"> <img class="stars" etc> ReviewerName - yyyy-mm-dd Review <a>was this helpful links</a> <hr/>

我试图从一个网站上删除客户评论，结果遇到了一个有趣的设置

<div class="Review">
  <img class="stars" etc>
  <b>ReviewerName</b>
  - yyyy-mm-dd
  <br/>
  <p>Review</p>
  <a>was this helpful links</a>
  <hr/>
  <br/>
  <!-- Repeat above for additional reviews. -->
</div>


审核人姓名
-年月日


复习
这是有用的链接吗

就我的一生而言，我无法想出一个能够捕获日期的XPath（

-yyyy-mm-dd

），因为它周围没有HTML格式。有人有办法吗

Jon

假设这样的结构：

<div class="Review">
    <img class="stars"/><b>ReviewerName</b> - yyyy-mm-dd<br/>
</div>

@乔恩：编程问答网站不让你发布代码的可能性有多大？；-）下次编辑问题时，请向右看，侧边栏中有一些有用的格式提示。

substring-after（）

对于预期形式中可能存在或可能不存在的空白有点假设。我可能会删除“外部”编程语言中的破折号。尤其是因为大多数编程语言不允许访问XPath函数结果，所以只能访问节点集。

substring-after(/div/b/following-sibling::text()[1],' - ')