什么';当我用R中的rvest包解析网站时,我的用户代理是什么?

什么';当我用R中的rvest包解析网站时,我的用户代理是什么?,r,web-scraping,rvest,R,Web Scraping,Rvest,因为在R中很容易,所以我使用包解析HTML来从网站中提取信息 我想知道在请求过程中我的用户代理(如果有)是什么,因为用户代理被分配到internet浏览器,或者是否有办法设置它 我打开会话并从HTML中提取信息的代码如下: library(rvest) se <- html_session( "http://www.wp.pl" ) %>% html_nodes("[data-st-area=Glonews-mozaika] li:nth-child(7) a") %>% h

因为在R中很容易,所以我使用包解析HTML来从网站中提取信息

我想知道在请求过程中我的用户代理(如果有)是什么,因为用户代理被分配到internet浏览器,或者是否有办法设置它

我打开会话并从HTML中提取信息的代码如下:

library(rvest)
se <- html_session( "http://www.wp.pl" ) %>% 
html_nodes("[data-st-area=Glonews-mozaika] li:nth-child(7) a") %>%
html_attr( name = "href" )
库(rvest)
se%
html_节点(“[data st area=glownews mozaika]li:nth child(7)a”)%>%
html_attr(name=“href”)
我曾经发现:

library(rvest)
se <- html_session( "https://httpbin.org/user-agent" )
se$response$request$options$useragent

请参阅,以了解覆盖它的方法。

我在教程中找到了这一点,它看起来是一种更简单、更快的方法:

uastring <- "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2228.0 Safari/537.36"
session <- html_session("https://www.linkedin.com/job/", user_agent(uastring))

uastring如果您正在使用任何常规linux发行版,这里有一个快捷方式:运行
netcat-l-p8080localhost | grep-i用户代理
,然后创建
html\u会话(“http://localhost:8080”)
。这很好。谢谢!谢谢,所以我用
se$response$request$opts$useragent
检查了这一点,如果您要用以下行编辑您的答案:“se$response$request$opts$useragent”,我将接受:)编辑。但是我需要使用
选项
,而不是
选项
。不确定您是否有输入错误,或者我们是否使用了不同的库版本或其他内容。回答很好,但使用作为示例有点误导,因为这意味着这个特殊的URL发挥了神奇的作用:事实上,任何URL都应该给出相同的正确结果。这是一个更好的例子,因为它是故意泛化的。很好的一点,但是如果你查看编辑历史,你会发现我最初只是使用了网站的响应(
se['response']
)。为了使它起作用,你需要额外的httr包。
uastring <- "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2228.0 Safari/537.36"
session <- html_session("https://www.linkedin.com/job/", user_agent(uastring))