Facebook R在博客上搜索标题、评论数和';喜欢';

Facebook R在博客上搜索标题、评论数和';喜欢';,facebook,r,curl,web-scraping,Facebook,R,Curl,Web Scraping,我试着用R从一些博客上获取一些信息。我想获取的数据是: 1) Date posted 2) Blog Post Title 3) Number of Comments 4) Number of Facebook likes. 这个博客包含了我想要收集的所有领域 理想情况下,我希望数据框如下所示: Post_Date CommentCount FB_Likes Title 2012-12-05 1 629 Th

我试着用R从一些博客上获取一些信息。我想获取的数据是:

1) Date posted
2) Blog Post Title
3) Number of Comments
4) Number of Facebook likes.
这个博客包含了我想要收集的所有领域

理想情况下,我希望数据框如下所示:

Post_Date      CommentCount       FB_Likes   Title
2012-12-05          1                 629      The James and Claudia Kripalu Workshop– The Daily Practice: Finding Success From Within
  ...              ...                ...          ...
有没有办法在R中做到这一点?这似乎是可以通过
RCurl
实现的,但我对
html/xml/js/etc
不太熟悉

到目前为止,这就是我所拥有的:

library(RCurl)
library(XML)
xmlTreeParse(getURI("http://www.jamesaltucher.com"))
当我运行这个程序时,我会得到一个错误,即开始括号和结束括号不匹配

注意:这些不是我的博客,因此我没有对博客或其FB帐户的管理员访问权限。

我发现抓取web内容非常容易。下面是几篇可能对您有所帮助的文章


希望这能有所帮助。

首先,您需要解析
Html
而不是
Xml
,因此请使用
htmlpasse
,它将尝试处理格式错误的Html。下面是一些XPath的示例

library(RCurl)
library(XML)
blogdata<-htmlParse(getURI("http://www.jamesaltucher.com"))
postDetail<-xpathSApply(blogdata,'/*//span[@class=\"details\"]',xmlValue)
title<-xpathSApply(blogdata,'/*//h2/a',xmlValue)
库(RCurl)
库(XML)

blogdata很难像facebook那样。 我很想看到一个解决办法。我用gsub来处理日期,以获得漂亮的格式

library(XML)
library(RCurl)
url.link <- 'http://www.jamesaltucher.com/'
blog <- getURL(url.link)
blog          <- htmlParse(blog, encoding = "UTF-8")
titles  <- xpathSApply (blog ,"//*[@class='article']/h2/a",xmlValue)             ## titles
dates   <- xpathSApply (blog ,"//*[@class='article']/h2/span/text()",
             function(x) {
                 y <- gsub('.*on(.*)Post.*','\\1',xmlValue(x))
               }
             )
dates <- dates[dates != 'Posted by ']
库(XML)
图书馆(RCurl)

url.link您尝试了什么?你能说得更具体些吗?你有没有打算写一个博客?也许提供一些示例代码?谢谢。我试图投赞成票,但有人投了反对票。不知道为什么,我试过这个答案。然后如何将标题和日期导出到CSV或Excel文件中?