如何从包含数字和文字的url获取电影ID?

如何从包含数字和文字的url获取电影ID?,r,web-scraping,rvest,R,Web Scraping,Rvest,我想从电影链接变量中提取所有电影ID movie\u网页同一个电影id存储在多个位置,其中一个是在每部电影的结尾,您可以从data tconst属性中获取电影id,而不需要太复杂 library(rvest) url <- "http://www.imdb.com/chart/top?ref_=nv_wl_img_3" url %>% read_html %>% html_nodes("div.wlb_ribbon") %>% html_attr("data

我想从电影链接变量中提取所有电影ID


movie\u网页同一个电影id存储在多个位置,其中一个是在每部电影的结尾,您可以从
data tconst
属性中获取电影id,而不需要太复杂

library(rvest)
url <- "http://www.imdb.com/chart/top?ref_=nv_wl_img_3"

url %>%
  read_html %>%
  html_nodes("div.wlb_ribbon") %>%
  html_attr("data-tconst")

#[1] "tt0111161" "tt0068646" "tt0071562" "tt0468569" "tt0050083" "tt0108052"
#[7] "tt0167260" "tt0110912" "tt0060196" "tt0137523" "tt0120737" "tt0109830"
#....
库(rvest)
url%
读取\u html%>%
html_节点(“div.wlb_功能区”)%>%
html_attr(“数据约束”)
#[1] “TT011161”“tt0068646”“tt0071562”“tt0468569”“tt0050083”“tt0108052”
#[7] “tt0167260”“tt0110912”“tt0060196”“tt0137523”“tt0120737”“tt0109830”
#....