R:dplyr由于内存问题不能与spark一起工作

R:dplyr由于内存问题不能与spark一起工作,r,apache-spark,R,Apache Spark,我试图用dplyr计算数据帧中两列之间的时间差(以秒为单位)。我的数据帧已通过以下方式加载: connection <- spark_connect(master = 'local') complete.data <- spark_read_csv(sc, "D:/mydata.csv") 示例输出: start_time end_time idletime <dttm>

我试图用dplyr计算数据帧中两列之间的时间差(以秒为单位)。我的数据帧已通过以下方式加载:

connection <- spark_connect(master = 'local')
complete.data <- spark_read_csv(sc, "D:/mydata.csv")
示例输出:

         start_time              end_time       idletime
             <dttm>                 <dttm>          <???>
2017-01-09 10:13:28    2017-01-09 10:25:45             89 (12 minutes and 17 seconds is 89 seconds)
开始时间结束时间空闲时间
2017-01-09 10:13:28 2017-01-09 10:25:45 89(12分17秒等于89秒)

在示例数据框中,您有
结束时间
开始时间
,但是您随后引用了
结束日期
?。如果您使用
end\u time
start\u time
,您的代码可以工作。这是我的转录错误,现在我已经在示例数据框中更正了您的
end\u time
start\u time
,但是您随后引用了
end\u date
?。如果您使用
end\u time
start\u time
,您的代码可以工作。这是我的转录错误,现在我已经更正了
> complete.data %>% select(end_time)
# Source: spark<?> [?? x 1]
  end_time
  <dttm>              
1 2017-01-09 10:13:28 
2 2017-01-09 10:32:27 
3 2017-01-09 10:38:20 
4 etc..
> complete.data %>% mutate(idletime = difftime(end_time, lag(start_time), units = "mins"))
Error in as.POSIXct(time1) : object 'end_time' not found
         start_time              end_time       idletime
             <dttm>                 <dttm>          <???>
2017-01-09 10:13:28    2017-01-09 10:25:45             89 (12 minutes and 17 seconds is 89 seconds)