R 从HTML中删除整个图表时遇到问题_R_Screen Scraping

R 从HTML中删除整个图表时遇到问题

R 从HTML中删除整个图表时遇到问题,r,screen-scraping,R,Screen Scraping,我正试图从这个网站上截取整个图表：但当我运行此代码时： library(XML) library(gsubfn) URL = 'http://stats.ncaa.org/team/stats?org_id=381&sport_year_ctl_id=12021' Player_Stats = readHTMLTable(URL, header = T, stringsAsFactors = F) Player_Stats Player_Stats只返回玩家的数据，直到并且

我正试图从这个网站上截取整个图表：

但当我运行此代码时：

library(XML)
library(gsubfn)

URL = 'http://stats.ncaa.org/team/stats?org_id=381&sport_year_ctl_id=12021'


Player_Stats = readHTMLTable(URL, header = T, stringsAsFactors = F)

Player_Stats

Player_Stats只返回玩家的数据，直到并且不包括总行

我想要的是球队总数和对手总数

感谢该信息位于表底部的

元素中，这就是为什么

readHTMLTable（）

没有注意到它的原因。您可以使用

getNodeSet（）

分别提取

位，如下所示。我已经在最后将表的两个部分绑定在一起，但是您可能希望将不同类型的信息分开以供应用程序使用

library(XML)
library(gsubfn)
URL = 'http://stats.ncaa.org/team/stats?org_id=381&sport_year_ctl_id=12021'
Player_Stats = readHTMLTable(URL, header = T, stringsAsFactors = F)
stats <- Player_Stats$stat_grid

doc <- htmlTreeParse(URL, useInternalNodes=T)
foot <- getNodeSet(doc,"//tfoot")
totals <- readHTMLTable(unlist(foot)[[1]])
colnames(totals) <- colnames(stats)
fulltable <- rbind(stats,totals)

库（XML）
图书馆（gsubfn）
URL='1〕http://stats.ncaa.org/team/stats?org_id=381&sport_year_ctl_id=12021'
Player_Stats=readHTMLTable（URL，header=T，stringsAsFactors=F）
统计数据