R 从HTML中删除整个图表时遇到问题

R 从HTML中删除整个图表时遇到问题,r,screen-scraping,R,Screen Scraping,我正试图从这个网站上截取整个图表: 但当我运行此代码时: library(XML) library(gsubfn) URL = 'http://stats.ncaa.org/team/stats?org_id=381&sport_year_ctl_id=12021' Player_Stats = readHTMLTable(URL, header = T, stringsAsFactors = F) Player_Stats Player_Stats只返回玩家的数据,直到并且

我正试图从这个网站上截取整个图表:

但当我运行此代码时:

library(XML)
library(gsubfn)

URL = 'http://stats.ncaa.org/team/stats?org_id=381&sport_year_ctl_id=12021'


Player_Stats = readHTMLTable(URL, header = T, stringsAsFactors = F)

Player_Stats
Player_Stats只返回玩家的数据,直到并且不包括总行

我想要的是球队总数和对手总数


感谢该信息位于表底部的
元素中,这就是为什么
readHTMLTable()
没有注意到它的原因。您可以使用
getNodeSet()
分别提取
位,如下所示。我已经在最后将表的两个部分绑定在一起,但是您可能希望将不同类型的信息分开以供应用程序使用

library(XML)
library(gsubfn)
URL = 'http://stats.ncaa.org/team/stats?org_id=381&sport_year_ctl_id=12021'
Player_Stats = readHTMLTable(URL, header = T, stringsAsFactors = F)
stats <- Player_Stats$stat_grid

doc <- htmlTreeParse(URL, useInternalNodes=T)
foot <- getNodeSet(doc,"//tfoot")
totals <- readHTMLTable(unlist(foot)[[1]])
colnames(totals) <- colnames(stats)
fulltable <- rbind(stats,totals)
库(XML)
图书馆(gsubfn)
URL='1〕http://stats.ncaa.org/team/stats?org_id=381&sport_year_ctl_id=12021'
Player_Stats=readHTMLTable(URL,header=T,stringsAsFactors=F)
统计数据