在R中删除新闻标题的问题_R_Web Scraping_Html Parsing_Rvest

在R中删除新闻标题的问题

r web-scraping

在R中删除新闻标题的问题,r,web-scraping,html-parsing,rvest,R,Web Scraping,Html Parsing,Rvest,我正试图在R中搜索新闻标题。下面是我编写的示例代码。然而，它给了我一个空集。谁能告诉我哪里出了问题 library(tidyverse) library(stringr) library(rvest) news_url1 <- "https://www.washingtonpost.com/newssearch/?query=economy&sort=Relevance&datefilter=All%20Since%202005&startat=0#to

我正试图在R中搜索新闻标题。下面是我编写的示例代码。然而，它给了我一个空集。谁能告诉我哪里出了问题

library(tidyverse)
library(stringr)
library(rvest)

news_url1 <- "https://www.washingtonpost.com/newssearch/?query=economy&sort=Relevance&datefilter=All%20Since%202005&startat=0#top"
news_html1 <- read_html(as.character(news_url1))
news_html1 %>% html_nodes(".pb-feed-headline")%>% html_text()

库（tidyverse）
图书馆（stringr）
图书馆（rvest）
新闻\u url1%html\u文本（）

请注意，您在web浏览器中看到的内容不一定与

read\u html

看到的内容相同。许多网站在页面加载后使用javascript更改内容，

read\uHTML

无法执行该javascript。也许可以尝试像RSelenium这样的软件包来使用R来控制web浏览器。另外，有些页面使用不同的方法来防止刮擦。另一种技术（可以避免使用对时间非常敏感的基于selenium的解决方案的许多挫折感）是调试浏览器窗口（例如firefox、chrome）并查看所有其他网络连接。对于某些站点，您可以找到一个不需要解析的直接URL，暗示底层API。（对于其他网站来说，这同样是模糊的。）我的观点是，有时加载javascript的内容同样可以被发现，并且可以被刮取，你只需要知道要跟踪哪个href。请注意，你在web浏览器中看到的内容不一定与

read\u html

会找到的内容相同。许多网站在页面加载后使用javascript更改内容，

read\uHTML

无法执行该javascript。也许可以尝试像RSelenium这样的软件包来使用R来控制web浏览器。另外，有些页面使用不同的方法来防止刮擦。另一种技术（可以避免使用对时间非常敏感的基于selenium的解决方案的许多挫折感）是调试浏览器窗口（例如firefox、chrome）并查看所有其他网络连接。对于某些站点，您可以找到一个不需要解析的直接URL，暗示底层API。（对于其他网站来说，这同样是不明确的。）我的观点是，有时候加载javascript的内容同样可以被发现，也可以被删除，你只需要知道跟踪哪个href。