R 每年从《纽约时报》和《华尔街日报》上搜刮关于某一主题的文章数量？_R_Web Scraping

R 每年从《纽约时报》和《华尔街日报》上搜刮关于某一主题的文章数量？

r web-scraping

R 每年从《纽约时报》和《华尔街日报》上搜刮关于某一主题的文章数量？,r,web-scraping,R,Web Scraping,我想创建一个数据框架，该数据框架将《纽约时报》和《华尔街日报》一览无余，并且具有每年关于某一特定主题的文章数量。即: NYT WSJ 2011 2 3 2012 10 7 我找到了《纽约时报》的教程，但不适用于我：\ux。当我到达第30行时，我得到以下错误： > cts <- as.data.frame(table(dat)) Error in provideDimnames(x) : length of 'dimnames' [1] n

我想创建一个数据框架，该数据框架将《纽约时报》和《华尔街日报》一览无余，并且具有每年关于某一特定主题的文章数量。即:

      NYT   WSJ
2011   2     3
2012   10    7

我找到了《纽约时报》的教程，但不适用于我：\ux。当我到达第30行时，我得到以下错误：

> cts <- as.data.frame(table(dat))
Error in provideDimnames(x) : 
  length of 'dimnames' [1] not equal to array extent

任何帮助都将不胜感激

谢谢

PS：这是我的代码，不工作，需要一个NYTAPI密钥

更新：回购协议现在处于

邓肯·坦普尔·朗（Duncan Temple Lang）创建了一个RNYTimes包，但它已经过时了，因为NYTimes API现在已经在v2上了。我一直在为一个政治终点而工作，但与你无关

我现在正在重新布线…从github安装。您需要先安装devtools才能获得install\u github

然后用它来尝试搜索，例如

library(RNYTimes); library(plyr)
moocs <- searchArticles("MOOCs", key = "<yourkey>")

您可以通过以下方式获得每篇文章的字数：

as.numeric(sapply(moocs$response$docs, "[[", 'word_count'))

[1]  157  362 1316  312 2936 2973  355 1364   16  880

谢谢我无法安装\u github:\u3.0.2:\u3.0.2:\u3.0.2:\u3.0:\u3.0:\u3.0:\u3.0:\u3.0:\u3.0:\u2:\u3.0:\u3.0:\u3.0:\u3.0:\u2:\。如果你在windows上，你可能会在安装devtools时遇到问题，但是如果你是unixThanks，应该会很顺利！我能够安装并运行它。我现在差不多有我需要的了。当我运行moocs时，上面添加了一些示例。我想你想要的只是moocs$response$meta$hits来获得找到的文章数量。几乎完美。我想要的是每年的moocs$response$meta$hits。可能吗？此外，如果我使用他们的web界面进行搜索，我会找到391个结果。为什么不同？

library(RNYTimes); library(plyr)
moocs <- searchArticles("MOOCs", key = "<yourkey>")

moocs$response$meta$hits

[1] 121

as.numeric(sapply(moocs$response$docs, "[[", 'word_count'))

[1]  157  362 1316  312 2936 2973  355 1364   16  880