Html 使用R从wikipedia信息框检索信息

Html 使用R从wikipedia信息框检索信息,html,r,wikipedia,Html,R,Wikipedia,即使根据所有可用的信息,我也无法解决以下问题(同时承认我已经脱离了我的专业领域……) 我想要的是:在关于城市的文章中从维基百科信息框中检索数据。简单地说:我想要Trüllikon的人口,这是维基百科相关文章信息框中的一个信息 到目前为止,我在这里咨询了相关问题: library("RCurl") library("XML") link <- "https://de.wikipedia.org/wiki/Tr%C3%BCllikon" site <- getURL(link) sit

即使根据所有可用的信息,我也无法解决以下问题(同时承认我已经脱离了我的专业领域……)

我想要的是:在关于城市的文章中从维基百科信息框中检索数据。简单地说:我想要Trüllikon的人口,这是维基百科相关文章信息框中的一个信息

到目前为止,我在这里咨询了相关问题:

library("RCurl")
library("XML")

link <- "https://de.wikipedia.org/wiki/Tr%C3%BCllikon"
site <- getURL(link)
site <- readLines(tc <- textConnection(site)); close(tc)

psite <- htmlTreeParse(site, error=function(...){}, useInternalNodes = TRUE)
所以有1014人(德语中的“Einwohner”)住在Trullikon,但我不知道如何获取这些信息。。。我考虑了
xpathsaply
-函数(见相关问题),但我无法使其适应我的问题

任何帮助都将不胜感激

更新

pop <- link %>%
  read_html() %>%
  html_nodes(xpath='//*[@id="mw-content-text"]/div/table[1]') %>%
  html_table()

r1 <- pop[[1]][ which(pop[[1]][,1] == "Einwohner:"),2]
r1
[1] "1014 (31. Dezember 2015)[1]"

(r1 <- sub(" .*", "", r1))
[1] "1014"
pop%
读取html()%>%
html_节点(xpath='/*[@id=“mw content text”]/div/table[1]')%>%
html_表()

r1我没有太多时间(代码的编译^^),但这可能会有帮助:谢谢!我不必仔细阅读您的代码,但与之相结合,就得到了上面更新的解决方案。我没有太多时间(代码的编译^^),但这可能会有所帮助:谢谢!我不必仔细阅读您的代码,但与之相结合,就得到了上面更新的解决方案
pop <- link %>%
  read_html() %>%
  html_nodes(xpath='//*[@id="mw-content-text"]/div/table[1]') %>%
  html_table()

r1 <- pop[[1]][ which(pop[[1]][,1] == "Einwohner:"),2]
r1
[1] "1014 (31. Dezember 2015)[1]"

(r1 <- sub(" .*", "", r1))
[1] "1014"
link <- "https://de.wikipedia.org/wiki/Tr%C3%BCllikon"
link2 <- "https://de.wikipedia.org/wiki/schlieren"

pop <- link %>%
  read_html() %>%
  html_table()

pop2 <- link2 %>%
  read_html() %>%
  html_table()

# I'm interested in the first list for "Trüllikon"
str(pop)
List of 3
 $ :'data.frame':       16 obs. of  2 variables:
  ..$ Trüllikon: chr [1:16] "" "Staat:" "Kanton:" "Bezirk:" ...
  ..$ Trüllikon: chr [1:16] "" "Schweiz" "Zürich (ZH)" "Andelfingenw" ...
 $ :'data.frame':       7 obs. of  2 variables:
  ..$ Bevölkerungsentwicklung: chr [1:7] "Jahr" "1950" "1960" "1970" ...
  ..$ Bevölkerungsentwicklung: chr [1:7] "Einwohner" "895" "823" "724" ...
 $ :'data.frame':       1 obs. of  1 variable:

# I'm interested in the second list for "Schlieren"
str(pop2)
List of 3
 $ :'data.frame':       1 obs. of  2 variables:
  ..$ X1: logi NA
  ..$ X2: chr "Der Titel dieses Artikels ist mehrdeutig. Weitere Bedeutungen sind unter Schlieren (Begriffsklärung) aufgeführt."
 $ :'data.frame':       18 obs. of  2 variables:
  ..$ Schlieren: chr [1:18] "" "Staat:" "Kanton:" "Bezirk:" ...
  ..$ Schlieren: chr [1:18] "" "Schweiz" "Zürich (ZH)" "Dietikon" ...
 $ :'data.frame':       1 obs. of  1 variable: