Asp.net 使用R从RSS源提取更多帖子到CSV

Asp.net 使用R从RSS源提取更多帖子到CSV,asp.net,r,parsing,rss,Asp.net,R,Parsing,Rss,我正试图从以下url的RSS提要中提取数据。基本上,我想使用本文中概述的代码提取每篇文章的标题和日期: 代码本身是 library(XML) library(RCurl) ###Extracting Data from Reuters xml.url <- "http://live.reuters.com/Event/rss.aspx?id=70335" script <- getURL(xml.url) doc <- xmlParse(script) title

我正试图从以下url的RSS提要中提取数据。基本上,我想使用本文中概述的代码提取每篇文章的标题和日期:

代码本身是

 library(XML)
library(RCurl)

###Extracting Data from Reuters
xml.url <- "http://live.reuters.com/Event/rss.aspx?id=70335"
script  <- getURL(xml.url)
doc     <- xmlParse(script)
titles    <- xpathSApply(doc,'//item/title',xmlValue)
pubdates <- xpathSApply(doc,'//item/pubDate',xmlValue)
reuters<-cbind(titles, pubdates)
reuters_data<-data.frame(reuters)

 #Exporting as a csv
write.csv(reuters_data, file = "reuters_post.csv")
库(XML)
图书馆(RCurl)
###从路透社提取数据

xml.url它解决了RSS/Atom提要不允许检索历史信息的问题,请参见

然而,我们可以使用非官方的谷歌阅读器API

库(RCurl)
图书馆(RJSONIO)

N似乎是CMS系统设置的一个限制,他们正在使用,而不是R有问题。如果你想通过检查每个页面来解析所有内容,你可能必须自己解析页面
library(RCurl)
library(RJSONIO)

N <- 100 # Number of items to fetch
url <- paste("http://www.google.com/reader/api/0/stream/contents/feed/http://live.reuters.com/Event/rss.aspx%3Fid=70335?n=", N, sep="")

json <- getURL(url)                               # Fetches data
list <- fromJSON(json)                            # JSON to list
df   <- as.data.frame(do.call(rbind, list$items)) # list to data.frame

title    <- unlist(df$title)                                                # Title
datetime <- as.POSIXlt(unlist(df$published), origin="1970-01-01", tz="GMT") # Publication date

reuters <- data.frame(title, datetime)        # Output data.frame
write.csv(reuters, file = "reuters_post.csv") # Writes CSV