R 通过更改XPath进行抓取:将文本模式设置为ID?
我正试图从许多网站上搜集相同的信息。问题是站点之间的元素数量会发生变化。这使得无法使用xpath或完整xpath。 但是,一行文本输入总是相同的;我想从中删除号码R 通过更改XPath进行抓取:将文本模式设置为ID?,r,rvest,R,Rvest,我正试图从许多网站上搜集相同的信息。问题是站点之间的元素数量会发生变化。这使得无法使用xpath或完整xpath。 但是,一行文本输入总是相同的;我想从中删除号码 <div class="txt-block"> <h4 class="inline">Points for this match</h4> 33 </div> 本场比赛得33分 如何使用“本场比赛的积分”作为ID来刮取“33” 谢谢你的任何
<div class="txt-block">
<h4 class="inline">Points for this match</h4> 33 </div>
本场比赛得33分
如何使用“本场比赛的积分”作为ID来刮取“33”
谢谢你的任何线索 您正在查找“[node,contains()]”参数。 试试这个:
library(tidyverse)
library(rvest)
html_obj <- read_html(x =
'<div class="txt-block">
<h4 class="inline">Points for this match</h4> 33 </div>')
html_nodes(x = html_obj,
xpath = '//div[contains(h4, "Points for this match")]') %>%
html_text( trim = TRUE) %>%
gsub("^Points for this match ", "", . )
库(tidyverse)
图书馆(rvest)
html_obj%
html_文本(trim=TRUE)%>%
gsub(“^Points for this match”,”,)
请分享几个网站URL以进行测试,好吗?可能有比xpath更好的方法(可能没有,但可能有)