R 如何循环浏览一组网页并将所有数据保存到单个CSV文件中?
如何循环浏览一组网页并将所有数据保存到单个CSV文件中?或者,循环浏览一组网页并将数据从一个网页保存到一个CSV文件 下面是URL的一个示例。 还有一个。 如何设置开始和结束日期,并在这些日期之间循环浏览所有页面 非常感谢R 如何循环浏览一组网页并将所有数据保存到单个CSV文件中?,r,R,如何循环浏览一组网页并将所有数据保存到单个CSV文件中?或者,循环浏览一组网页并将数据从一个网页保存到一个CSV文件 下面是URL的一个示例。 还有一个。 如何设置开始和结束日期,并在这些日期之间循环浏览所有页面 非常感谢 library(dplyr) library(lubridate) library(zoo) library(magrittr) start_date = mdy("January 1, 2014") %>% as.Date end_date = mdy("Janu
library(dplyr)
library(lubridate)
library(zoo)
library(magrittr)
start_date = mdy("January 1, 2014") %>% as.Date
end_date = mdy("January 30, 2014") %>% as.Date
catalog =
data_frame(date = start_date:end_date %>% as.Date) %>%
mutate(month =
date %>% format("%m") %>% as.numeric,
day =
date %>% format("%d") %>% as.numeric,
year =
date %>% format("%Y") %>% as.numeric,
URL =
"http://www.hockey-reference.com/friv/dailyleaders.cgi?month=%s&day=%s&year=%s" %>%
sprintf(month, day, year) ) %>%
group_by(date) %>%
do(tables =
.$URL %>%
htmlParse %>%
readHTMLTable(stringAsFactors = FALSE) )
skaters =
catalog %>%
group_by(date) %>%
do(.$tables %>%
extract2(1) %>%
use_series(skaters) )
goalies =
catalog %>%
group_by(date) %>%
do(.$tables %>%
extract2(1) %>%
use_series(goalies) )
编辑:
谢谢这看起来很甜!!我喜欢计时器!!顺便问一下,数据到哪里去了?我检查了默认的工作目录,没有找到任何东西。滑冰者和守门员应该有最终的数据集。原始数据存储在目录中的表格列表中。哦,我最后忘了写表格了。请参见编辑以获取输出。对不起,我是新来的。我不完全明白你的意思。你能不能给我完整的代码,这样我就可以复制/粘贴它,运行它,并从中学习?谢谢在上面的编辑之后运行代码,这允许您选择要将数据保存在哪个目录中。
library(dplyr)
library(lubridate)
library(zoo)
library(magrittr)
start_date = mdy("January 1, 2014") %>% as.Date
end_date = mdy("January 30, 2014") %>% as.Date
catalog =
data_frame(date = start_date:end_date %>% as.Date) %>%
mutate(month =
date %>% format("%m") %>% as.numeric,
day =
date %>% format("%d") %>% as.numeric,
year =
date %>% format("%Y") %>% as.numeric,
URL =
"http://www.hockey-reference.com/friv/dailyleaders.cgi?month=%s&day=%s&year=%s" %>%
sprintf(month, day, year) ) %>%
group_by(date) %>%
do(tables =
.$URL %>%
htmlParse %>%
readHTMLTable(stringAsFactors = FALSE) )
skaters =
catalog %>%
group_by(date) %>%
do(.$tables %>%
extract2(1) %>%
use_series(skaters) )
goalies =
catalog %>%
group_by(date) %>%
do(.$tables %>%
extract2(1) %>%
use_series(goalies) )
setwd("C:/insert_path_to_your_data")
skaters %>% write.csv("skaters.csv", row.names = FALSE)
goalies %>% write.csv("goalies.csv", row.names = FALSE)