R 仅从多个表中删除一些列
我只想删除这些表中的候选人姓名以及第三列中报告的投票(在图像后面,候选人姓名)。这就是我所能做到的R 仅从多个表中删除一些列,r,xpath,web-scraping,rvest,R,Xpath,Web Scraping,Rvest,我只想删除这些表中的候选人姓名以及第三列中报告的投票(在图像后面,候选人姓名)。这就是我所能做到的 library(rvest) ndp_leadership<-url('https://en.wikipedia.org/wiki/New_Democratic_Party_leadership_elections') results<-read_html(ndp_leadership, 'table') results<-html_nodes(results, 'table'
library(rvest)
ndp_leadership<-url('https://en.wikipedia.org/wiki/New_Democratic_Party_leadership_elections')
results<-read_html(ndp_leadership, 'table')
results<-html_nodes(results, 'table')
out<-results %>%
html_nodes(xpath="//*[contains(., 'Candidate')]//tr/td")
out
库(rvest)
ndp_leadership虽然这并不真正使用XPath,但有一种方法可以做到:
results <- read_html(ndp_leadership) %>%
html_nodes(".wikitable") %>%
html_table(fill=TRUE) %>%
map(~ .[,2]) %>%
unlist %>%
setdiff(., c("Candidate", "Total"))
结果%
html_节点(“.wikitable”)%>%
html_表格(fill=TRUE)%>%
映射(~[2])%>%
未列出%>%
setdiff(,c(“候选”,“总计”))
虽然这并没有真正使用XPath,但有一种方法可以做到这一点:
results <- read_html(ndp_leadership) %>%
html_nodes(".wikitable") %>%
html_table(fill=TRUE) %>%
map(~ .[,2]) %>%
unlist %>%
setdiff(., c("Candidate", "Total"))
结果%
html_节点(“.wikitable”)%>%
html_表格(fill=TRUE)%>%
映射(~[2])%>%
未列出%>%
setdiff(,c(“候选”,“总计”))
那么,如果您的问题?“请为我做这件事”不是问题。由于wikipedia页面可以随时编辑,因此将其用作示例数据是没有帮助的。试着在问题本身中包含一个。而不是关闭,添加一个XPath标记来重新调整问题的方向,因为它肯定不仅仅与R相关。那么如果你的问题是什么呢?“请为我做这件事”不是问题。由于wikipedia页面可以随时编辑,因此将其用作示例数据是没有帮助的。尝试在问题本身中包含一个,而不是结束,添加一个XPath标记来重新调整问题的方向,因为它肯定不仅仅与R相关。