Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/r/77.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
在R中删除新闻标题的问题_R_Web Scraping_Html Parsing_Rvest - Fatal编程技术网

在R中删除新闻标题的问题

在R中删除新闻标题的问题,r,web-scraping,html-parsing,rvest,R,Web Scraping,Html Parsing,Rvest,我正试图在R中搜索新闻标题。下面是我编写的示例代码。然而,它给了我一个空集。谁能告诉我哪里出了问题 library(tidyverse) library(stringr) library(rvest) news_url1 <- "https://www.washingtonpost.com/newssearch/?query=economy&sort=Relevance&datefilter=All%20Since%202005&startat=0#to

我正试图在R中搜索新闻标题。下面是我编写的示例代码。然而,它给了我一个空集。谁能告诉我哪里出了问题

library(tidyverse)
library(stringr)
library(rvest)

news_url1 <- "https://www.washingtonpost.com/newssearch/?query=economy&sort=Relevance&datefilter=All%20Since%202005&startat=0#top"
news_html1 <- read_html(as.character(news_url1))
news_html1 %>% html_nodes(".pb-feed-headline")%>% html_text()

库(tidyverse)
图书馆(stringr)
图书馆(rvest)
新闻\u url1%html\u文本()

请注意,您在web浏览器中看到的内容不一定与
read\u html
看到的内容相同。许多网站在页面加载后使用javascript更改内容,
read\uHTML
无法执行该javascript。也许可以尝试像RSelenium这样的软件包来使用R来控制web浏览器。另外,有些页面使用不同的方法来防止刮擦。另一种技术(可以避免使用对时间非常敏感的基于selenium的解决方案的许多挫折感)是调试浏览器窗口(例如firefox、chrome)并查看所有其他网络连接。对于某些站点,您可以找到一个不需要解析的直接URL,暗示底层API。(对于其他网站来说,这同样是模糊的。)我的观点是,有时加载javascript的内容同样可以被发现,并且可以被刮取,你只需要知道要跟踪哪个href。请注意,你在web浏览器中看到的内容不一定与
read\u html
会找到的内容相同。许多网站在页面加载后使用javascript更改内容,
read\uHTML
无法执行该javascript。也许可以尝试像RSelenium这样的软件包来使用R来控制web浏览器。另外,有些页面使用不同的方法来防止刮擦。另一种技术(可以避免使用对时间非常敏感的基于selenium的解决方案的许多挫折感)是调试浏览器窗口(例如firefox、chrome)并查看所有其他网络连接。对于某些站点,您可以找到一个不需要解析的直接URL,暗示底层API。(对于其他网站来说,这同样是不明确的。)我的观点是,有时候加载javascript的内容同样可以被发现,也可以被删除,你只需要知道跟踪哪个href。