Facebook R在博客上搜索标题、评论数和';喜欢';
我试着用R从一些博客上获取一些信息。我想获取的数据是:Facebook R在博客上搜索标题、评论数和';喜欢';,facebook,r,curl,web-scraping,Facebook,R,Curl,Web Scraping,我试着用R从一些博客上获取一些信息。我想获取的数据是: 1) Date posted 2) Blog Post Title 3) Number of Comments 4) Number of Facebook likes. 这个博客包含了我想要收集的所有领域 理想情况下,我希望数据框如下所示: Post_Date CommentCount FB_Likes Title 2012-12-05 1 629 Th
1) Date posted
2) Blog Post Title
3) Number of Comments
4) Number of Facebook likes.
这个博客包含了我想要收集的所有领域
理想情况下,我希望数据框如下所示:
Post_Date CommentCount FB_Likes Title
2012-12-05 1 629 The James and Claudia Kripalu Workshop– The Daily Practice: Finding Success From Within
... ... ... ...
有没有办法在R中做到这一点?这似乎是可以通过RCurl
实现的,但我对html/xml/js/etc
不太熟悉
到目前为止,这就是我所拥有的:
library(RCurl)
library(XML)
xmlTreeParse(getURI("http://www.jamesaltucher.com"))
当我运行这个程序时,我会得到一个错误,即开始括号和结束括号不匹配
注意:这些不是我的博客,因此我没有对博客或其FB帐户的管理员访问权限。我发现抓取web内容非常容易。下面是几篇可能对您有所帮助的文章
希望这能有所帮助。首先,您需要解析
Html
而不是Xml
,因此请使用htmlpasse
,它将尝试处理格式错误的Html。下面是一些XPath的示例
library(RCurl)
library(XML)
blogdata<-htmlParse(getURI("http://www.jamesaltucher.com"))
postDetail<-xpathSApply(blogdata,'/*//span[@class=\"details\"]',xmlValue)
title<-xpathSApply(blogdata,'/*//h2/a',xmlValue)
库(RCurl)
库(XML)
blogdata很难像facebook那样。
我很想看到一个解决办法。我用gsub来处理日期,以获得漂亮的格式
library(XML)
library(RCurl)
url.link <- 'http://www.jamesaltucher.com/'
blog <- getURL(url.link)
blog <- htmlParse(blog, encoding = "UTF-8")
titles <- xpathSApply (blog ,"//*[@class='article']/h2/a",xmlValue) ## titles
dates <- xpathSApply (blog ,"//*[@class='article']/h2/span/text()",
function(x) {
y <- gsub('.*on(.*)Post.*','\\1',xmlValue(x))
}
)
dates <- dates[dates != 'Posted by ']
库(XML)
图书馆(RCurl)
url.link您尝试了什么?你能说得更具体些吗?你有没有打算写一个博客?也许提供一些示例代码?谢谢。我试图投赞成票,但有人投了反对票。不知道为什么,我试过这个答案。然后如何将标题和日期导出到CSV或Excel文件中?