R:rvest-共享计数器,xpath
我正在尝试使用Rvest废弃数据。我无法从共享计数器中刮取数字/文本:“753 udostępnienia” 我使用GoogleChrome插件查找Xpath。我准备了一个简单的R代码:R:rvest-共享计数器,xpath,r,xpath,web-scraping,rvest,R,Xpath,Web Scraping,Rvest,我正在尝试使用Rvest废弃数据。我无法从共享计数器中刮取数字/文本:“753 udostępnienia” 我使用GoogleChrome插件查找Xpath。我准备了一个简单的R代码: library(rvest) url2<- "https://www.siepomaga.pl/kacper-szlyk" share_url<-html(url2) share_url share <- share_url %>% html_node(xpath ="/html[@c
library(rvest)
url2<- "https://www.siepomaga.pl/kacper-szlyk"
share_url<-html(url2)
share_url
share <- share_url %>%
html_node(xpath ="/html[@class='turbolinks-progress-bar']/body/div[@id='page']/div[@class='causes-show']/div[@class='ui container']/div[@id='column-container']/div[@id='right-column']/div[@class='ui sticky']/div[@class='box with-padding']/div[@class='bordered-box share-box']/div[@class='content']/div[@class='ui grid two columns']/div[@class='share-counter']") %>%
html_text()
share
库(rvest)
url2我提出了一个使用rvest
的解决方案,而没有使用xpath=
方法。这还使用了dplyr
包中的管道操作符来简化操作:
library(tidyverse) # Contains the dplyr package
library(rvest)
siep_url <- "https://www.siepomaga.pl/kacper-szlyk"
counter <- siep_url %>%
read_html() %>%
html_node(".share-counter") %>% # The node comes from https://selectorgadget.com/, a useful selector tool
html_text()
您可以使用gsub()
将其清除:
谢谢,总结如下:1)使用SelectorGardget获取CSS,然后使用gsub进行操作以清除文本。基本上,是的-如果您愿意,您可以检查此答案是否正确!
[1] "\n\n755\nudostępnień\n"
counter <- gsub("\n\n755\nudostępnień\n", "755 udostępnień", counter)