R 通过更改XPath进行抓取：将文本模式设置为ID？_R_Rvest

R 通过更改XPath进行抓取：将文本模式设置为ID？

R 通过更改XPath进行抓取：将文本模式设置为ID？,r,rvest,R,Rvest,我正试图从许多网站上搜集相同的信息。问题是站点之间的元素数量会发生变化。这使得无法使用xpath或完整xpath。但是，一行文本输入总是相同的；我想从中删除号码 <div class="txt-block"> <h4 class="inline">Points for this match</h4> 33 </div> 本场比赛得33分如何使用“本场比赛的积分”作为ID来刮取“33” 谢谢你的任何

我正试图从许多网站上搜集相同的信息。问题是站点之间的元素数量会发生变化。这使得无法使用xpath或完整xpath。但是，一行文本输入总是相同的；我想从中删除号码

<div class="txt-block">
<h4 class="inline">Points for this match</h4> 33  </div>


本场比赛得33分

如何使用“本场比赛的积分”作为ID来刮取“33”

谢谢你的任何线索

您正在查找“[node，contains（）]”参数。试试这个：

library(tidyverse)
library(rvest)

html_obj <- read_html(x = 
'<div class="txt-block">
 <h4 class="inline">Points for this match</h4> 33  </div>') 

html_nodes(x = html_obj,
           xpath = '//div[contains(h4, "Points for this match")]') %>% 
  html_text( trim  = TRUE) %>% 
  gsub("^Points for this match ", "", . )

库（tidyverse）
图书馆（rvest）
html_obj%
html_文本（trim=TRUE）%>%
gsub（“^Points for this match”，”，）

请分享几个网站URL以进行测试，好吗？可能有比xpath更好的方法（可能没有，但可能有）