是否有一个R函数可以从Github repo一次读取多个csv?
我想做的是从回购页面抓取所有CSV。我知道我需要获取它的原始版本,但是有很多文件,对于每个文件,我需要用是否有一个R函数可以从Github repo一次读取多个csv?,r,dataframe,github,R,Dataframe,Github,我想做的是从回购页面抓取所有CSV。我知道我需要获取它的原始版本,但是有很多文件,对于每个文件,我需要用rbind绑定行,以便进行进一步的计算。有没有一个功能可以一次下载其中的每一个 附言:当然,我不想在本地下载每个文件,只想读取它并在我的环境中只存储生成的数据帧您可以将一些web抓取与rvest结合使用。基本上,我们使用map\u df动态创建一个url来读取数据,并将它们组合到一个数据帧中 library(dplyr) library(rvest) url <- "http
rbind
绑定行,以便进行进一步的计算。有没有一个功能可以一次下载其中的每一个
附言:当然,我不想在本地下载每个文件,只想读取它并在我的环境中只存储生成的数据帧您可以将一些web抓取与
rvest
结合使用。基本上,我们使用map\u df
动态创建一个url来读取数据,并将它们组合到一个数据帧中
library(dplyr)
library(rvest)
url <- "https://github.com/pcm-dpc/COVID-19/tree/master/dati-regioni"
url %>%
read_html() %>%
html_nodes(xpath = '//*[@role="rowheader"]') %>%
html_nodes('span a') %>%
html_attr('href') %>%
head %>% # <- remove this line to read all the files.
sub('blob/', '', .) %>%
paste0('https://raw.githubusercontent.com', .) %>%
purrr::map_df(read.csv) -> combined_data
库(dplyr)
图书馆(rvest)
url%
读取html()%>%
html_节点(xpath='/*[@role=“rowheader”]')%>%
html_节点('span a')%>%
html_attr('href')%>%
人头%>%#%
粘贴0('https://raw.githubusercontent.com', .) %>%
purrr::map_df(read.csv)->组合数据
请注意,我添加了
head
,以仅测试前6个文件的答案。当您从目录中读取所有文件时,您可以将其删除。您可以将一些web抓取与rvest
结合使用。基本上,我们使用map\u df
动态创建一个url来读取数据,并将它们组合到一个数据帧中
library(dplyr)
library(rvest)
url <- "https://github.com/pcm-dpc/COVID-19/tree/master/dati-regioni"
url %>%
read_html() %>%
html_nodes(xpath = '//*[@role="rowheader"]') %>%
html_nodes('span a') %>%
html_attr('href') %>%
head %>% # <- remove this line to read all the files.
sub('blob/', '', .) %>%
paste0('https://raw.githubusercontent.com', .) %>%
purrr::map_df(read.csv) -> combined_data
库(dplyr)
图书馆(rvest)
url%
读取html()%>%
html_节点(xpath='/*[@role=“rowheader”]')%>%
html_节点('span a')%>%
html_attr('href')%>%
人头%>%#%
粘贴0('https://raw.githubusercontent.com', .) %>%
purrr::map_df(read.csv)->组合数据
请注意,我添加了
head
,以仅测试前6个文件的答案。您可以在读取目录中的所有文件时将其删除。这正是我要找的,谢谢!这正是我想要的,谢谢!它真的应该包含在一些包中