Html 无法使用rvest对内容进行web刮取_Html_R_Web Scraping_Rvest

Html 无法使用rvest对内容进行web刮取

html r web-scraping

Html 无法使用rvest对内容进行web刮取,html,r,web-scraping,rvest,Html,R,Web Scraping,Rvest,我期待着网站刮下所有的代码和每个层次下的代码，如左面板上看到的，从这个网站使用R包rvest 网址-- 首先，我尝试了这个代码- url<-"http://apps.who.int/classifications/icd10/browse/2016/en/" src<-read_html(url) ATC<-src%>%html_node("a.ygtvlabel")%>%html_text url与许多此类页面一样，此页面对包含数据的json文件发出后台请求。

我期待着网站刮下所有的代码和每个层次下的代码，如左面板上看到的，从这个网站使用R包rvest

网址--

首先，我尝试了这个代码-

url<-"http://apps.who.int/classifications/icd10/browse/2016/en/"
src<-read_html(url)
ATC<-src%>%html_node("a.ygtvlabel")%>%html_text

url与许多此类页面一样，此页面对包含数据的json文件发出后台请求。这可以通过使用浏览器调试工具和查看网络请求来发现。使用注释中提到的API是更好的选择
library(httr)
library(jsonlite)

## original url<-"http://apps.who.int/classifications/icd10/browse/2016/en/"

json_url <- "http://apps.who.int/classifications/icd10/browse/2016/en/JsonGetRootConcepts?useHtml=false"
json_data <- rawToChar(GET(json_url)$content)

categories <- fromJSON(json_data)
categories$label
# [1] "I Certain infectious and parasitic diseases"                                                            
# [2] "II Neoplasms"                                                                                           
# [3] "III Diseases of the blood and blood-forming organs and certain disorders involving the immune mechanism"
# [4] "IV Endocrine, nutritional and metabolic diseases"                                                       
# gories$label

库（httr）
图书馆（jsonlite）
##使用实际API的原始urlb/c是否不正确？谢谢@hrbrmstr。API实际上给出了一个新的思路。根据提示，我使用了R包-icd，并从包定义的变量中获得了主要章节和子章节，因为我正在专门寻找ICD10代码。无法获取最低级别的代码（我的意思是A00.0霍乱，由于霍乱弧菌01，霍乱生物变种）。但我想知道我是否混合使用API打包，是否会探索更多。“icd”目前仅限于美国icd-9-CM和icd-10-CM，它们大多是相应WHO计划的超集。然而，世卫组织在某些领域有更详细的信息，尤其是艾滋病毒，而在美国版本中，这一信息更为有限。世卫组织惊人地宣称其ICD-9和ICD-10版本拥有版权，因此目前无法作为“ICD”或“ICD.data”软件包的一部分进行分发。不幸的是，世卫组织软件包处理的是世卫组织数据文件，而不是分类。如果您以电子方式签署协议而不重新分发，则可以从世卫组织获得世卫组织ICD代码的机器可读定义。谢谢@epi99。同意，我从R软件包中得到了部分数据。但是，如果您的代码可以帮助我获取页面上的所有内容，我仍然希望尝试您的代码。content（RESULTOFGET，as=“parsed”）
在您的系统上不起作用吗？