如何从包含数字和文字的url获取电影ID？_R_Web Scraping_Rvest

如何从包含数字和文字的url获取电影ID？

r web-scraping

如何从包含数字和文字的url获取电影ID？,r,web-scraping,rvest,R,Web Scraping,Rvest,我想从电影链接变量中提取所有电影ID movie\u网页同一个电影id存储在多个位置，其中一个是在每部电影的结尾，您可以从data tconst属性中获取电影id，而不需要太复杂 library(rvest) url <- "http://www.imdb.com/chart/top?ref_=nv_wl_img_3" url %>% read_html %>% html_nodes("div.wlb_ribbon") %>% html_attr("data

我想从电影链接变量中提取所有电影ID

movie\u网页同一个电影id存储在多个位置，其中一个是在每部电影的结尾，您可以从data tconst
属性中获取电影id，而不需要太复杂
library(rvest)
url <- "http://www.imdb.com/chart/top?ref_=nv_wl_img_3"

url %>%
  read_html %>%
  html_nodes("div.wlb_ribbon") %>%
  html_attr("data-tconst")

#[1] "tt0111161" "tt0068646" "tt0071562" "tt0468569" "tt0050083" "tt0108052"
#[7] "tt0167260" "tt0110912" "tt0060196" "tt0137523" "tt0120737" "tt0109830"
#....

库（rvest）
url%
读取\u html%>%
html_节点（“div.wlb_功能区”）%>%
html_attr（“数据约束”）
#[1] “TT011161”“tt0068646”“tt0071562”“tt0468569”“tt0050083”“tt0108052”
#[7] “tt0167260”“tt0110912”“tt0060196”“tt0137523”“tt0120737”“tt0109830”
#....