R 通过更改XPath进行抓取:将文本模式设置为ID?

R 通过更改XPath进行抓取:将文本模式设置为ID?,r,rvest,R,Rvest,我正试图从许多网站上搜集相同的信息。问题是站点之间的元素数量会发生变化。这使得无法使用xpath或完整xpath。 但是,一行文本输入总是相同的;我想从中删除号码 <div class="txt-block"> <h4 class="inline">Points for this match</h4> 33 </div> 本场比赛得33分 如何使用“本场比赛的积分”作为ID来刮取“33” 谢谢你的任何

我正试图从许多网站上搜集相同的信息。问题是站点之间的元素数量会发生变化。这使得无法使用xpath或完整xpath。 但是,一行文本输入总是相同的;我想从中删除号码

<div class="txt-block">
<h4 class="inline">Points for this match</h4> 33  </div>

本场比赛得33分
如何使用“本场比赛的积分”作为ID来刮取“33”


谢谢你的任何线索

您正在查找“[node,contains()]”参数。 试试这个:

library(tidyverse)
library(rvest)

html_obj <- read_html(x = 
'<div class="txt-block">
 <h4 class="inline">Points for this match</h4> 33  </div>') 

html_nodes(x = html_obj,
           xpath = '//div[contains(h4, "Points for this match")]') %>% 
  html_text( trim  = TRUE) %>% 
  gsub("^Points for this match ", "", . )
库(tidyverse)
图书馆(rvest)
html_obj%
html_文本(trim=TRUE)%>%
gsub(“^Points for this match”,”,)

请分享几个网站URL以进行测试,好吗?可能有比xpath更好的方法(可能没有,但可能有)