使用rvest抓取数据时出现问题

使用rvest抓取数据时出现问题,r,dplyr,rvest,R,Dplyr,Rvest,请注意,我正试图从谷歌新闻网站上刮取数据。我想使用rvest和dplyr软件包以及google chrome上的选择器小工具提取网站上趋势主题的关键词。这是我的密码: library(rvest) library(dplyr) google.news<-read_html("https://news.google.com/topstories?hl=en-NG&gl=NG&ceid=NG:en") google.news %>% +html_nodes(".boy4h

请注意,我正试图从谷歌新闻网站上刮取数据。我想使用rvest和dplyr软件包以及google chrome上的选择器小工具提取网站上趋势主题的关键词。这是我的密码:

library(rvest)
library(dplyr)
google.news<-read_html("https://news.google.com/topstories?hl=en-NG&gl=NG&ceid=NG:en")
google.news %>%
+html_nodes(".boy4he") %>%
+html_text()
库(rvest)
图书馆(dplyr)
谷歌新闻%
+html_节点(“.boy4he”)%>%
+html_text()
但在运行代码后,我收到以下错误消息:

google.news<-read_html("https://news.google.com/topstories?hl=en-NG&gl=NG&ceid=NG:en")
> google.news %>%
+ +html_nodes(".boy4he") %>%
+ +html_text()
Error in UseMethod("xml_find_all") : 
  no applicable method for 'xml_find_all' applied to an object of class "character"
google.news google.news%>%
++html_节点(“.boy4he”)%>%
++html_text()
UseMethod(“xml\u find\u all”)中出错:
没有适用于“character”类对象的“xml\u find\u all”方法
请问怎么了?我将非常感谢任何人的建议或建议,谢谢。

此功能:

library(rvest)
library(dplyr)
google.news<-read_html("https://news.google.com/topstories?hl=en-NG&gl=NG&ceid=NG:en")

google.news %>%
  html_nodes(css = ".boy4he") %>%
  html_attr("aria-label")

[1] "Godwin Obaseki"            "Abdullahi Umar Ganduje"    "Sanusi Lamido Sanusi"      "Zamfara"                  
 [5] "All Progressives Congress" "Dangote Group"             "Kano"                      "Senate of Nigeria"        
 [9] "Aliko Dangote"             "Muhammadu Buhari"  
库(rvest)
图书馆(dplyr)
谷歌新闻%
html_节点(css=“.boy4he”)%%>%
html_attr(“aria标签”)
[1] “戈德温·奥巴塞基”“阿卜杜拉·奥马尔·甘杜杰”“萨努西·拉米多·萨努西”“赞法拉”
[5] “所有进步派国会”“丹格特集团”“卡诺”“尼日利亚参议院”
[9] “Aliko Dangote”“Muhammadu Buhari”
这些值在html属性“aria标签”中“隐藏”:



您的代码中有打字错误,这可能是复制+粘贴的结果。从
html\u节点
html\u文本
之前删除
+
。这导致了一个空的字符向量,但这是另一个问题(该网站可能是由DINAMICAL创建的,我认为抓取谷歌新闻是一种习惯),非常感谢您的建议;我很感激,多明尼克,代码很有效。这意味着我将不得不一直深入到我想要从中提取数据的网页的源代码中去寻找html属性或标记。不客气!查找html标记/css选择器的最简单方法是使用chrome浏览器的css选择器小工具扩展。但在您的例子中,这只会告诉您css选择器(“.boy4he”),因此您仍然需要深入研究源代码。但选择器小部件90%的时间都能正常工作。考虑一下,如果它对你有帮助的话,请接受我的回答。
<a class="boy4he" href="./topics/CAAqJQgKIh9DQkFTRVFvTEwyMHZNREV5YlRKa2RHd1NBbVZ1S0FBUAE?hl=en-NG&amp;gl=NG&amp;ceid=NG%3Aen" aria-label="Abdullahi Umar Ganduje"></a>