用Rvest抓取谷歌新闻中的关键词
我想比较不同国家的新闻文章中某个特定关键字的用法 我的想法是使用RCrawler搜索谷歌新闻:用Rvest抓取谷歌新闻中的关键词,r,rvest,rcrawler,R,Rvest,Rcrawler,我想比较不同国家的新闻文章中某个特定关键字的用法 我的想法是使用RCrawler搜索谷歌新闻: RCrawler(网站=”https://news.google.com/topics/CAAqIggKIhxDQkFTRHdvSkwyMHZNREZqY0hsNUVnSmtaU2dBUAE?hl=de&gl=DE&ceid=DE%3Ade,MaxDepth=5,Keywordfilter=c(“关键字”),KeywordAccurance=99) 然后计算我得到的结果。 我不确定这是不是最好的方法,
RCrawler(网站=”https://news.google.com/topics/CAAqIggKIhxDQkFTRHdvSkwyMHZNREZqY0hsNUVnSmtaU2dBUAE?hl=de&gl=DE&ceid=DE%3Ade,MaxDepth=5,Keywordfilter=c(“关键字”),KeywordAccurance=99)
然后计算我得到的结果。
我不确定这是不是最好的方法,或者它是否正确,但我对R不熟悉,而且它是我目前能想到的最好的方法。因为你使用的是谷歌新闻,而不是用这种方式,更简单的方法是访问特定关键字的RSS提要并将其拉入数据框。幸运的是,您可以使用
{tidyRSS}
包来完成这项工作
此URL提供了一个提要的示例:
https://news.google.com/rss/search?q=apple&hl=en-IN&gl=IN&ceid=IN:en
了解如何自定义此URL。如果您愿意,可以按地理位置进行搜索
安装tidyRSS
后,您可以这样实现它:
library(tidyRSS)
# I will search for the keyword Apple
keyword <- "https://news.google.com/rss/search?q=apple&hl=en-IN&gl=IN&ceid=IN:en"
# From the package vignette
google_news <- tidyfeed(
keyword,
clean_tags = TRUE,
parse_dates = TRUE
)
库(tidyRSS)
#我会搜索关键词苹果
关键字由于您使用的是谷歌新闻,因此不必采用这种方式进行抓取,更简单的方法是访问该特定关键字的RSS提要并将其拉入数据帧。幸运的是,您可以使用{tidyRSS}
包来完成这项工作
此URL提供了一个提要的示例:
https://news.google.com/rss/search?q=apple&hl=en-IN&gl=IN&ceid=IN:en
了解如何自定义此URL。如果您愿意,可以按地理位置进行搜索
安装tidyRSS
后,您可以这样实现它:
library(tidyRSS)
# I will search for the keyword Apple
keyword <- "https://news.google.com/rss/search?q=apple&hl=en-IN&gl=IN&ceid=IN:en"
# From the package vignette
google_news <- tidyfeed(
keyword,
clean_tags = TRUE,
parse_dates = TRUE
)
库(tidyRSS)
#我会搜索关键词苹果
欢迎来到Stackoverflow!我已经在下面分享了你的问题的答案。请注意,这些Q/a将作为除您以外的其他用户的未来参考,因此您的标题和帖子详细信息应反映此类责任。我建议将你的标题改为“用Rvest抓取谷歌新闻”或类似的东西,因为当前的标题没有描述这个问题。欢迎来到Stackoverflow!我已经在下面分享了你的问题的答案。请注意,这些Q/a将作为除您以外的其他用户的未来参考,因此您的标题和帖子详细信息应反映此类责任。我建议将你的标题改为“用Rvest抓取谷歌新闻”或类似的东西,因为当前的标题没有描述这个问题。