Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/r/65.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
在r中处理超过500万个观测值的数据帧时,如何加快迭代?_R_Dplyr_Iteration_Tidyverse_Purrr - Fatal编程技术网

在r中处理超过500万个观测值的数据帧时,如何加快迭代?

在r中处理超过500万个观测值的数据帧时,如何加快迭代?,r,dplyr,iteration,tidyverse,purrr,R,Dplyr,Iteration,Tidyverse,Purrr,我试图在数百万次观测中为超过7个变量生成值,当我写一个for循环来实现这一点时,需要花费很长时间。下面是我试图实现的一个例子。在这种情况下,它的速度很快,因为它只有几千次观测: # Load dplyr library(tidyverse) set.seed(50) df <- data_frame(SlNo = 1:2000, Scenario = rep(c(1, 2, 3, 4),500), A = round

我试图在数百万次观测中为超过7个变量生成值,当我写一个for循环来实现这一点时,需要花费很长时间。下面是我试图实现的一个例子。在这种情况下,它的速度很快,因为它只有几千次观测:

# Load dplyr


library(tidyverse)
set.seed(50)

df <- data_frame(SlNo = 1:2000,
                 Scenario = rep(c(1, 2, 3, 4),500),
                 A = round(rnorm(2000, 11, 6)),
                 B = round(rnorm(2000, 15, 4))) %>%
      arrange(Scenario) 

#splitting data-frame to add multiple rows in the data-frame

df<- df %>% split(f = .$Scenario) %>%
  map_dfr(~bind_rows(tibble(Scenario = 0), .x)) 

#observations for certain variables in the newly added rows have specific values

df <- df %>% mutate(C = if_else(Scenario != 0, 0, 4),
                    E = if_else(Scenario != 0, 0, 6))

for(i in 2:nrow(df)) {

df$C[i] <- if_else(df$Scenario[i] != 0, (1-0.5) * df$C[i-1] + 3 + 2 + df$B[i] + df$E[i-1],
              df$C[i])
df$E[i] <- if_else(df$Scenario[i] != 0, df$C[i] + df$B[i] - 50, df$E[i])


}

df

# A tibble: 2,004 x 6
   Scenario  SlNo     A     B     C      E
      <dbl> <int> <dbl> <dbl> <dbl>  <dbl>
 1        0    NA    NA    NA   4     6   
 2        1     1    14    19  32     1   
 3        1     5     1    13  35    -2   
 4        1     9    17    20  40.5  10.5 
 5        1    13     8     7  42.8  -0.25
 6        1    17    10    16  42.1   8.12
 7        1    21     9    12  46.2   8.19
 8        1    25    14    18  54.3  22.3 
 9        1    29    14    15  69.4  34.4 
10        1    33     4    17  91.1  58.1 
# ... with 1,994 more rows
#加载dplyr
图书馆(tidyverse)
种子集(50)
df%
安排(场景)
#拆分数据框以在数据框中添加多行
df%分割(f=.$Scenario)%>%
map_dfr(~bind_行(tible(Scenario=0),.x))
#新添加行中某些变量的观测值具有特定值
df%变异(C=if_else(场景!=0,0,4),
E=如果(场景!=0,0,6))
对于(第2部分中的i:nrow(df)){

df$C[i]你能用文字写出你的目标是什么吗?我认为这会让你更快地思考解决方案,而不是试图从你的代码中找出答案。你也看过使用
数据表
并用更快的方法替换for循环吗?我正在处理的数据框包含数百万行和7个变量,我需要从中提取它们计算三个变量的值。在本例中,有4个场景,编写代码以计算每个场景的C&E变量值。每个场景的C&E第一次观测值被指定一个特定值。这些变量的每个后续观测值取决于之前的值of同一个变量,即C[i]值取决于C[i-1]和e[i-1]。为实现这一点而编写的for循环在应用于具有超过5M OB的DF时非常慢。这看起来只是代数,尽管很复杂。如果你把它写出来,我敢打赌你可以想出一些只使用
累积和
滞后的方法。