R 每年从《纽约时报》和《华尔街日报》上搜刮关于某一主题的文章数量?

R 每年从《纽约时报》和《华尔街日报》上搜刮关于某一主题的文章数量?,r,web-scraping,R,Web Scraping,我想创建一个数据框架,该数据框架将《纽约时报》和《华尔街日报》一览无余,并且具有每年关于某一特定主题的文章数量。即: NYT WSJ 2011 2 3 2012 10 7 我找到了《纽约时报》的教程,但不适用于我:\ux。当我到达第30行时,我得到以下错误: > cts <- as.data.frame(table(dat)) Error in provideDimnames(x) : length of 'dimnames' [1] n

我想创建一个数据框架,该数据框架将《纽约时报》和《华尔街日报》一览无余,并且具有每年关于某一特定主题的文章数量。即:

      NYT   WSJ
2011   2     3
2012   10    7
我找到了《纽约时报》的教程,但不适用于我:\ux。当我到达第30行时,我得到以下错误:

> cts <- as.data.frame(table(dat))
Error in provideDimnames(x) : 
  length of 'dimnames' [1] not equal to array extent
任何帮助都将不胜感激

谢谢

PS:这是我的代码,不工作,需要一个NYTAPI密钥

更新:回购协议现在处于

邓肯·坦普尔·朗(Duncan Temple Lang)创建了一个RNYTimes包,但它已经过时了,因为NYTimes API现在已经在v2上了。我一直在为一个政治终点而工作,但与你无关

我现在正在重新布线…从github安装。您需要先安装devtools才能获得install\u github

然后用它来尝试搜索,例如

library(RNYTimes); library(plyr)
moocs <- searchArticles("MOOCs", key = "<yourkey>")
您可以通过以下方式获得每篇文章的字数:

as.numeric(sapply(moocs$response$docs, "[[", 'word_count'))

[1]  157  362 1316  312 2936 2973  355 1364   16  880 

谢谢我无法安装\u github:\u3.0.2:\u3.0.2:\u3.0.2:\u3.0:\u3.0:\u3.0:\u3.0:\u3.0:\u3.0:\u2:\u3.0:\u3.0:\u3.0:\u3.0:\u2:\。如果你在windows上,你可能会在安装devtools时遇到问题,但是如果你是unixThanks,应该会很顺利!我能够安装并运行它。我现在差不多有我需要的了。当我运行moocs时,上面添加了一些示例。我想你想要的只是moocs$response$meta$hits来获得找到的文章数量。几乎完美。我想要的是每年的moocs$response$meta$hits。可能吗?此外,如果我使用他们的web界面进行搜索,我会找到391个结果。为什么不同?
library(RNYTimes); library(plyr)
moocs <- searchArticles("MOOCs", key = "<yourkey>")
moocs$response$meta$hits

[1] 121
as.numeric(sapply(moocs$response$docs, "[[", 'word_count'))

[1]  157  362 1316  312 2936 2973  355 1364   16  880