Facebook R在博客上搜索标题、评论数和'；喜欢'；_Facebook_R_Curl_Web Scraping

Facebook R在博客上搜索标题、评论数和'；喜欢'；

facebook r curl web-scraping

Facebook R在博客上搜索标题、评论数和'；喜欢'；,facebook,r,curl,web-scraping,Facebook,R,Curl,Web Scraping,我试着用R从一些博客上获取一些信息。我想获取的数据是： 1) Date posted 2) Blog Post Title 3) Number of Comments 4) Number of Facebook likes. 这个博客包含了我想要收集的所有领域理想情况下，我希望数据框如下所示： Post_Date CommentCount FB_Likes Title 2012-12-05 1 629 Th

我试着用R从一些博客上获取一些信息。我想获取的数据是：

1) Date posted
2) Blog Post Title
3) Number of Comments
4) Number of Facebook likes.

这个博客包含了我想要收集的所有领域

理想情况下，我希望数据框如下所示：

Post_Date      CommentCount       FB_Likes   Title
2012-12-05          1                 629      The James and Claudia Kripalu Workshop– The Daily Practice: Finding Success From Within
  ...              ...                ...          ...

有没有办法在R中做到这一点？这似乎是可以通过

RCurl

实现的，但我对

html/xml/js/etc

不太熟悉

到目前为止，这就是我所拥有的：

library(RCurl)
library(XML)
xmlTreeParse(getURI("http://www.jamesaltucher.com"))

当我运行这个程序时，我会得到一个错误，即开始括号和结束括号不匹配

注意：这些不是我的博客，因此我没有对博客或其FB帐户的管理员访问权限。

我发现抓取web内容非常容易。下面是几篇可能对您有所帮助的文章

希望这能有所帮助。

首先，您需要解析

Html

而不是

Xml

，因此请使用

htmlpasse

，它将尝试处理格式错误的Html。下面是一些XPath的示例

library(RCurl)
library(XML)
blogdata<-htmlParse(getURI("http://www.jamesaltucher.com"))
postDetail<-xpathSApply(blogdata,'/*//span[@class=\"details\"]',xmlValue)
title<-xpathSApply(blogdata,'/*//h2/a',xmlValue)

库（RCurl）
库（XML）
blogdata很难像facebook那样。
我很想看到一个解决办法。我用gsub来处理日期，以获得漂亮的格式
library(XML)
library(RCurl)
url.link <- 'http://www.jamesaltucher.com/'
blog <- getURL(url.link)
blog          <- htmlParse(blog, encoding = "UTF-8")
titles  <- xpathSApply (blog ,"//*[@class='article']/h2/a",xmlValue)             ## titles
dates   <- xpathSApply (blog ,"//*[@class='article']/h2/span/text()",
             function(x) {
                 y <- gsub('.*on(.*)Post.*','\\1',xmlValue(x))
               }
             )
dates <- dates[dates != 'Posted by ']

库（XML）
图书馆（RCurl）
url.link您尝试了什么？你能说得更具体些吗？你有没有打算写一个博客？也许提供一些示例代码？谢谢。我试图投赞成票，但有人投了反对票。不知道为什么，我试过这个答案。然后如何将标题和日期导出到CSV或Excel文件中？