使用R从HTML节点树中提取文本

使用R从HTML节点树中提取文本,html,regex,r,web-scraping,rcurl,Html,Regex,R,Web Scraping,Rcurl,我目前正试图从一个HTML树中提取文本,我已将其解析如下:- require(RCurl) require(XML) query.IMDB <- getURL('http://www.imdb.com/title/tt0096697/epdate') #Simpsons episodes, rated and ordered by broadcast date names(query.IMDB) query.IMDB query.IMDB <- htmlParse(query.

我目前正试图从一个HTML树中提取文本,我已将其解析如下:-

require(RCurl)
require(XML)

query.IMDB <- getURL('http://www.imdb.com/title/tt0096697/epdate') #Simpsons episodes, rated and ordered by broadcast date
names(query.IMDB)

query.IMDB

query.IMDB <- htmlParse(query.IMDB)
df.IMDB <- getNodeSet(query.IMDB, "//*/div[@class='rating rating-list']")
我的下一次尝试是在query.IMDB向量中的各个点上使用grep:-

vect <- numeric(length(df.IMDB))

for (i in 1:length(df.IMDB)){

      vect[i] <- data[grep("Users rated this", "", df.IMDB)]

  }
事实上,我希望最终能替换所有内容,除了给定文本字符串后面的一些带有空格的形式
[0-9].[0-9]
,但我正在做一个更简单的版本,首先让它工作起来


有人能告诉我应该使用什么函数来编辑查询中每个点的文本吗。IMDB vector

此处无需使用
grep
(避免使用HTML文件的正则表达式)。使用
XML
软件包中的便捷功能
readHTMLTable

library(XML)
head(readHTMLTable('http://www.imdb.com/title/tt0096697/epdate')[[1]][,c(2:4)])
                            Episode UserRating UserVotes
1 Simpsons Roasting on an Open Fire        8.2     2,694
2                   Bart the Genius        7.8     1,167
3                   Homer's Odyssey        7.5     1,005
4     There's No Disgrace Like Home        7.9     1,017
5                  Bart the General        8.0       992
6                      Moaning Lisa        7.4       988

这将为您提供评级表,。。。也许你应该把用户投票转换成数字。

可能有一个API。你想做什么?您要提取什么文本?你想看评级表吗?是的,我想编一个评级表。嗨,哈弗,如果我理解正确,API是专有的,只针对许可证持有人,或者我在讨论中遗漏了什么。
Error in df.IMDB[i] <- grep("Users rated this", "", df.IMDB[i]) : replacement has length zero
library(XML)
head(readHTMLTable('http://www.imdb.com/title/tt0096697/epdate')[[1]][,c(2:4)])
                            Episode UserRating UserVotes
1 Simpsons Roasting on an Open Fire        8.2     2,694
2                   Bart the Genius        7.8     1,167
3                   Homer's Odyssey        7.5     1,005
4     There's No Disgrace Like Home        7.9     1,017
5                  Bart the General        8.0       992
6                      Moaning Lisa        7.4       988