Text 如何编写XPath来捕获未标记的文本

Text 如何编写XPath来捕获未标记的文本,text,xpath,screen-scraping,Text,Xpath,Screen Scraping,我试图从一个网站上删除客户评论,结果遇到了一个有趣的设置 <div class="Review"> <img class="stars" etc> <b>ReviewerName</b> - yyyy-mm-dd <br/> <p>Review</p> <a>was this helpful links</a> <hr/> <br/>

我试图从一个网站上删除客户评论,结果遇到了一个有趣的设置

<div class="Review">
  <img class="stars" etc>
  <b>ReviewerName</b>
  - yyyy-mm-dd
  <br/>
  <p>Review</p>
  <a>was this helpful links</a>
  <hr/>
  <br/>
  <!-- Repeat above for additional reviews. -->
</div>

审核人姓名
-年月日

复习

这是有用的链接吗

就我的一生而言,我无法想出一个能够捕获日期的XPath(
-yyyy-mm-dd
),因为它周围没有HTML格式。有人有办法吗


Jon

假设这样的结构:

<div class="Review">
    <img class="stars"/><b>ReviewerName</b> - yyyy-mm-dd<br/>
</div>

@乔恩:编程问答网站不让你发布代码的可能性有多大?;-)下次编辑问题时,请向右看,侧边栏中有一些有用的格式提示。
substring-after()
对于预期形式中可能存在或可能不存在的空白有点假设。我可能会删除“外部”编程语言中的破折号。尤其是因为大多数编程语言不允许访问XPath函数结果,所以只能访问节点集。
substring-after(/div/b/following-sibling::text()[1],' - ')