如何从R中导入的wikipedia表中删除引用?
我想从Wikipedia导入表,但它在括号中包含引用链接 我从如何从R中导入的wikipedia表中删除引用?,r,rvest,R,Rvest,我想从Wikipedia导入表,但它在括号中包含引用链接 我从 我的代码: library("rvest") url <- "https://en.wikipedia.org/wiki/Statistics_of_the_COVID-19_pandemic_in_Poland" xpathd <- "/html/body/div[3]/div[3]/div[5]/div[1]/table[2]" dane <- ur
我的代码:
library("rvest")
url <- "https://en.wikipedia.org/wiki/Statistics_of_the_COVID-19_pandemic_in_Poland"
xpathd <- "/html/body/div[3]/div[3]/div[5]/div[1]/table[2]"
dane <- url %>%
read_html() %>%
html_nodes(xpath = xpathd) %>%
html_table()
dane <- dane[[1]]
head(dane)
library(“rvest”)
url%
html_表()
dane一个简单的方法是对要从中删除数字的列使用parse_number
library(dplyr)
new_data <- dane %>%
mutate(across(`Confirmed daily[c]`:`Unofficial deaths daily[f]`,
readr::parse_number))
库(dplyr)
新数据%
变异(跨越(`确认每日[c]`:`非官方死亡每日[f]`),
readr::parse_数)
parse_number
返回字符串中的第一个数字。您可以使用gsub()
删除参考零件的模式
library(dplyr)
dane %>%
mutate(across(.fns = ~ gsub("\\[.*?\\]", "", .)))