Html 在R中抓取网站时的编码问题
我使用rvest软件包从带有口音的法语网站中提取信息 我在read_hmtl函数中尝试了不同的编码方法,latin1、latin8、utf-8,但都失败了 在代码源页面的顶部:Html 在R中抓取网站时的编码问题,html,r,utf-8,web-scraping,rvest,Html,R,Utf 8,Web Scraping,Rvest,我使用rvest软件包从带有口音的法语网站中提取信息 我在read_hmtl函数中尝试了不同的编码方法,latin1、latin8、utf-8,但都失败了 在代码源页面的顶部: <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> 这是我的密码: dnc_avis <- read_html(url, encoding = "utf8") df <- data.frame(dnc_av
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
这是我的密码:
dnc_avis <- read_html(url, encoding = "utf8")
df <- data.frame(dnc_avis %>% html_nodes("div .contenant_recherche h3") %>% html_text(trim=TRUE))
df[1,]
它给了我:
勒内先生©勒内先生
还尝试:
dnc_avis <- read_html(iconv(url, to = "UTF-8"), encoding = "utf8")
但输出相同
如何获得正确的编码
非常感谢。您使用的是旧版本的rvest吗?尝试更新它。当前用于解析html文件的函数是html。选中“stri_enc_detect”自动检测编码。这可能会有帮助。如果您提供实际的URL,我也可以试一试。当我使用您的代码而不指定任何编码时,我的输出很好:[1]勒内·奥格先生。请试一试。如果这也不起作用,并且你更新了rvest,那么这可能是一个与你的操作系统和本地人有关的问题……奇怪。。。im在RI386 3.1.3和rvest 0.3.0上使用RStudio 0.99.484,以及什么操作系统?Win,OSX,Unix?法语Win 7 pro,SP1,64位