R 下载完整的html_R_Html Parsing

R 下载完整的html

R 下载完整的html,r,html-parsing,R,Html Parsing,我正在尝试使用R刮取一些网站。但是，由于未知原因，我无法从该网站获取所有信息。我找到了一个解决办法，首先下载完整的网页（从浏览器另存为）。我想知道是否可以使用一些功能下载完整的网站。我尝试了“download.file”和“htmlpasse”，但他们似乎只下载源代码 url = "http://www.tripadvisor.com/Hotel_Review-g2216639-d2215212-Reviews-Ayurveda_Kuren_Maho-Yapahuwa_North_Wester

我正在尝试使用R刮取一些网站。但是，由于未知原因，我无法从该网站获取所有信息。我找到了一个解决办法，首先下载完整的网页（从浏览器另存为）。我想知道是否可以使用一些功能下载完整的网站。我尝试了“download.file”和“htmlpasse”，但他们似乎只下载源代码

url = "http://www.tripadvisor.com/Hotel_Review-g2216639-d2215212-Reviews-Ayurveda_Kuren_Maho-Yapahuwa_North_Western_Province.html"

download.file(url , "webpage")
doc <- htmlParse(urll)
ratings = as.data.frame(xpathSApply(doc,'//div[@class="rating reviewItemInline"]/span//@alt'))

url=”http://www.tripadvisor.com/Hotel_Review-g2216639-d2215212-Reviews-Ayurveda_Kuren_Maho-Yapahuwa_North_Western_Province.html"
下载文件（url，“网页”）
doc这对rvest first go有效
llply(html(url) %>% html_nodes('div.rating.reviewItemInline'),function(i)
data.frame(nth_stars = html_nodes(i,'img') %>% html_attr('alt'),
date_var = html_text(i)%>%stri_replace_all_regex('(\n|Reviewed)','')))

根据法律规定，未经允许，禁止这样做。你有吗？如果纯粹出于教育目的而使用的rvest
是经常被推荐用于解析XML和HTML的软件包之一，他们会例外。另外，包httr
可能对您有用。httr:：GET
函数提取网站的正文内容以及其他信息。