R语言:运行代码需要很长时间
我发表了关于如何使用“plotly”库在R中绘制交互式时间序列的文章。我收到了一个答案,并尝试运行该代码-但是,该代码已经运行了3个小时。数据并没有那么大,我在plotly网站(和)上尝试了一个类似的例子,它们似乎运行良好 下面是我试图运行的代码(来自我之前的答案):R语言:运行代码需要很长时间,r,time,time-series,plotly,data-visualization,R,Time,Time Series,Plotly,Data Visualization,我发表了关于如何使用“plotly”库在R中绘制交互式时间序列的文章。我收到了一个答案,并尝试运行该代码-但是,该代码已经运行了3个小时。数据并没有那么大,我在plotly网站(和)上尝试了一个类似的例子,它们似乎运行良好 下面是我试图运行的代码(来自我之前的答案): #load libraries and generate artificial time series data (this part works) library(xts) library(ggplot2) library(d
#load libraries and generate artificial time series data (this part works)
library(xts)
library(ggplot2)
library(dplyr)
library(plotly)
#create data
#time series 1
date_decision_made = seq(as.Date("2014/1/1"), as.Date("2016/1/1"),by="day")
date_decision_made <- format(as.Date(date_decision_made), "%Y/%m/%d")
property_damages_in_dollars <- rnorm(731,100,10)
final_data <- data.frame(date_decision_made, property_damages_in_dollars)
final_data %>%
mutate(date_decision_made = as.Date(date_decision_made)) %>%
add_count(week = format(date_decision_made, "%W-%y"))
final_data$class = "time_series_1"
#time series 2
date_decision_made = seq(as.Date("2014/1/1"), as.Date("2016/1/1"),by="day")
date_decision_made <- format(as.Date(date_decision_made), "%Y/%m/%d")
property_damages_in_dollars <- rnorm(731,10,10)
final_data_2 <- data.frame(date_decision_made, property_damages_in_dollars)
final_data_2 %>%
mutate(date_decision_made = as.Date(date_decision_made)) %>%
add_count(week = format(date_decision_made, "%W-%y"))
final_data_2$class = "time_series_2"
#combine
data = rbind(final_data, final_data_2)
虽然数据不小(通过转换在累加_之后的535092行),但生成这些绘图仪不应该花费数小时。在我的机器上,整个过程不到2分钟。它似乎留下了一些只有重新启动R才能清除的数据,因此您可能需要检查内存占用情况 以下代码应可复制:
tic虽然数据不小(通过
transformation累积后的535092行),但生成这些绘图图形应该不需要几个小时。在我的机器上,整个过程不到2分钟。它似乎留下了一些只有重新启动R才能清除的数据,因此您可能需要检查内存占用情况
以下代码应可复制:
tic你有没有试着找出代码的哪一部分花了这么长时间?我个人会停止它,创建数据(并发现这是否是慢下来的原因),然后一步一步地找出问题所在。@Elin:谢谢你的回答。是的,这是两个部分的绘图函数。这段代码的某些方面对我来说没有意义(使用as.Date()多次计算同一事物)反复使用相同的数据。也不确定是否有必要转换为数字。你确定这不是累积函数的问题吗?也尝试切换到使用原始日期而不是x的tmp_日期。只看这些图表,我确实认为你有很多数据。如果你只是尝试绘制前4个月的图表,会怎么样s或类似的东西?您是否尝试过隔离代码的哪个部分花费了这么长的时间?我个人会停止它,创建数据(并发现这是否是慢下来的原因),然后一步一步地找出问题所在。@Elin:谢谢你的回答。是的,这是两个部分的绘图函数。它们对你来说也需要很长时间吗?这段代码的某些方面对我来说没有意义(使用as.Date()多次计算同一事物)反复使用相同的数据。也不确定是否有必要转换为数字。你确定这不是累积函数的问题吗?也尝试切换到使用原始日期而不是x的tmp_日期。只看这些图表,我确实认为你有很多数据。如果你只是尝试绘制前4个月的图表,会怎么样s或类似的东西?非常感谢您的回复!我花了这么多时间试图弄明白如何理解第2部分!至于第1部分-您知道如何将日期格式从16.1k更改为更易于识别的日历日期吗?非常感谢您的帮助!请参阅编辑的帖子-您可以在悬停文本中添加日期并添加带有日期的自定义x轴标签。不幸的是,我没有设法让框架使用日期格式。非常感谢您的回复!我花了这么多时间试图了解如何了解第2部分!至于第1部分-您知道如何将日期格式从16.1k更改为更易识别的日历日期吗?我无法感谢您h为您提供帮助!请参阅编辑的帖子-您可以在悬停文本中添加日期,并添加带有日期的自定义x轴标签。不幸的是,我没有让框架使用日期格式。
#part 1:
data <- data %>%
mutate(tmp_date = as.numeric(as.Date(date_decision_made, format = "%Y/%m/%d")))
accumulate_by <- function(dat, var) {
var <- lazyeval::f_eval(var, dat)
lvls <- plotly:::getLevels(var)
dats <- lapply(seq_along(lvls), function(x) {
cbind(dat[var %in% lvls[seq(1, x)], ], frame = lvls[[x]])
})
dplyr::bind_rows(dats)
}
data <- data %>% accumulate_by(~tmp_date)
fig <- data %>%
plot_ly(
x = ~tmp_date,
y = ~property_damages_in_dollars,
split = ~class,
frame = ~frame,
type = 'scatter',
mode = 'lines',
line = list(simplyfy = F)
)
fig
#part 2
updatemenus <- list(
list(
active = -1,
type= 'buttons',
buttons = list(
list(
label = "time_series_1",
method = "update",
args = list(list(visible = c(FALSE, TRUE)),
list(title = "series 1",
annotations = list(c(), high_annotations)))),
list(
label = "time_series_2",
method = "update",
args = list(list(visible = c(TRUE, FALSE)),
list(title = "series 2",
annotations = list(low_annotations, c() )))),
)
)
)
fig <- data %>% plot_ly(type = 'scatter', mode = 'lines')
fig <- fig %>% add_lines(x=~date_decision_made,
y=~property_damages_in_dollars, name="High",
line=list(color="#33CFA5"))
fig <- fig %>% add_lines(x=~date_decision_made,
y=~property_damage_in_dollars, name="Low",
line=list(color="#F06A6A"))
fig <- fig %>% layout(title = "Apple", showlegend=FALSE,
xaxis=list(title="Date"),
yaxis=list(title="Price ($)"),
updatemenus=updatemenus)
fig
sessionInfo()
R version 4.0.2 (2020-06-22)
Platform: x86_64-w64-mingw32/x64 (64-bit)
Running under: Windows 10 x64 (build 18363)
Matrix products: default
locale:
[1] LC_COLLATE=English_Canada.1252 LC_CTYPE=English_Canada.1252 LC_MONETARY=English_Canada.1252 LC_NUMERIC=C
[5] LC_TIME=English_Canada.1252
attached base packages:
[1] stats graphics grDevices utils datasets methods base
other attached packages:
[1] plotly_4.9.2.1 dplyr_1.0.2 ggplot2_3.3.2 xts_0.12.1 zoo_1.8-8
loaded via a namespace (and not attached):
[1] tinytex_0.26 tidyselect_1.1.0 xfun_0.15 purrr_0.3.4 reshape2_1.4.4 splines_4.0.2
[7] lattice_0.20-41 colorspace_1.4-1 vctrs_0.3.2 generics_0.0.2 viridisLite_0.3.0 htmltools_0.5.0
[13] stats4_4.0.2 yaml_2.2.1 survival_3.2-7 prodlim_2019.11.13 rlang_0.4.7 ModelMetrics_1.2.2.2
[19] pillar_1.4.6 glue_1.4.1 withr_2.3.0 xgboost_1.1.1.1 foreach_1.5.1 lifecycle_0.2.0
[25] plyr_1.8.6 lava_1.6.8 stringr_1.4.0 timeDate_3043.102 munsell_0.5.0 gtable_0.3.0
[31] recipes_0.1.13 htmlwidgets_1.5.2 codetools_0.2-16 crosstalk_1.1.0.1 caret_6.0-86 class_7.3-17
[37] Rcpp_1.0.5 scales_1.1.1 ipred_0.9-9 jsonlite_1.7.1 digest_0.6.25 stringi_1.4.6
[43] grid_4.0.2 tools_4.0.2 magrittr_1.5 lazyeval_0.2.2 tibble_3.0.3 tidyr_1.1.0
[49] crayon_1.3.4 pkgconfig_2.0.3 MASS_7.3-53 ellipsis_0.3.1 Matrix_1.2-18 data.table_1.12.8
[55] pROC_1.16.2 lubridate_1.7.9 gower_0.2.2 httr_1.4.2 rstudioapi_0.11 iterators_1.0.13
[61] R6_2.4.1 rpart_4.1-15 nnet_7.3-14 nlme_3.1-149 compiler_4.0.2