R中的Web抓取（从表中获取信息）_R

R中的Web抓取（从表中获取信息）

R中的Web抓取（从表中获取信息）,r,R,尝试在R中单独研究网页抓取如果没有HTML知识，这感觉非常困难 crime_wiki <- read_html("https://en.wikipedia.org/wiki/List_of_United_States_cities_by_crime_rate") crime_wiki %>% html_nodes(".firstHeading") %>% html_text() crime_wiki %>% html

尝试在R中单独研究网页抓取

如果没有HTML知识，这感觉非常困难

crime_wiki <- read_html("https://en.wikipedia.org/wiki/List_of_United_States_cities_by_crime_rate")
crime_wiki %>% 
  html_nodes(".firstHeading") %>% html_text()

crime_wiki %>% 
  html_nodes("dl+ h2 .mw-headline") %>% html_text()

我做错了什么

最终我想做。。。当我单击每个城市名称时，它们的链接页面似乎具有相同的格式。因此，从每个页面获取相同的信息，例如表中所有城市的市长姓名…

以下代码允许我获取城市名称：

    library(rvest)
    crime_wiki <- read_html("https://en.wikipedia.org/wiki/List_of_United_States_cities_by_crime_rate")
    crime_wiki %>% 
      html_nodes("td a") %>%
      html_text()

库（rvest）
犯罪率%
html_节点（“td a”）%>%
html_text（）

我不熟悉“.jquery表排序器a”的用法。我使用SelectorGadget获取节点的名称，即“td a”。请注意，对于我共享的代码，如果只需要城市名称，我需要删除最后4个元素。

我也使用了SelectorGadget，并且在切换区域中给出了“.jquery tablesorter a”。当我将光标放在该区域时，它会显示“td a”。我不知道什么时候该选哪个（切换框或光标框）。。。

    library(rvest)
    crime_wiki <- read_html("https://en.wikipedia.org/wiki/List_of_United_States_cities_by_crime_rate")
    crime_wiki %>% 
      html_nodes("td a") %>%
      html_text()