Text 如何编写XPath来捕获未标记的文本
我试图从一个网站上删除客户评论,结果遇到了一个有趣的设置Text 如何编写XPath来捕获未标记的文本,text,xpath,screen-scraping,Text,Xpath,Screen Scraping,我试图从一个网站上删除客户评论,结果遇到了一个有趣的设置 <div class="Review"> <img class="stars" etc> <b>ReviewerName</b> - yyyy-mm-dd <br/> <p>Review</p> <a>was this helpful links</a> <hr/> <br/>
<div class="Review">
<img class="stars" etc>
<b>ReviewerName</b>
- yyyy-mm-dd
<br/>
<p>Review</p>
<a>was this helpful links</a>
<hr/>
<br/>
<!-- Repeat above for additional reviews. -->
</div>
审核人姓名
-年月日
复习
这是有用的链接吗
就我的一生而言,我无法想出一个能够捕获日期的XPath(-yyyy-mm-dd
),因为它周围没有HTML格式。有人有办法吗
Jon假设这样的结构:
<div class="Review">
<img class="stars"/><b>ReviewerName</b> - yyyy-mm-dd<br/>
</div>
@乔恩:编程问答网站不让你发布代码的可能性有多大?;-)下次编辑问题时,请向右看,侧边栏中有一些有用的格式提示。
substring-after()
对于预期形式中可能存在或可能不存在的空白有点假设。我可能会删除“外部”编程语言中的破折号。尤其是因为大多数编程语言不允许访问XPath函数结果,所以只能访问节点集。
substring-after(/div/b/following-sibling::text()[1],' - ')