R:dplyr由于内存问题不能与spark一起工作
我试图用dplyr计算数据帧中两列之间的时间差(以秒为单位)。我的数据帧已通过以下方式加载:R:dplyr由于内存问题不能与spark一起工作,r,apache-spark,R,Apache Spark,我试图用dplyr计算数据帧中两列之间的时间差(以秒为单位)。我的数据帧已通过以下方式加载: connection <- spark_connect(master = 'local') complete.data <- spark_read_csv(sc, "D:/mydata.csv") 示例输出: start_time end_time idletime <dttm>
connection <- spark_connect(master = 'local')
complete.data <- spark_read_csv(sc, "D:/mydata.csv")
示例输出:
start_time end_time idletime
<dttm> <dttm> <???>
2017-01-09 10:13:28 2017-01-09 10:25:45 89 (12 minutes and 17 seconds is 89 seconds)
开始时间结束时间空闲时间
2017-01-09 10:13:28 2017-01-09 10:25:45 89(12分17秒等于89秒)
在示例数据框中,您有结束时间
和开始时间
,但是您随后引用了结束日期
?。如果您使用end\u time
和start\u time
,您的代码可以工作。这是我的转录错误,现在我已经在示例数据框中更正了您的end\u time
和start\u time
,但是您随后引用了end\u date
?。如果您使用end\u time
和start\u time
,您的代码可以工作。这是我的转录错误,现在我已经更正了
> complete.data %>% select(end_time)
# Source: spark<?> [?? x 1]
end_time
<dttm>
1 2017-01-09 10:13:28
2 2017-01-09 10:32:27
3 2017-01-09 10:38:20
4 etc..
> complete.data %>% mutate(idletime = difftime(end_time, lag(start_time), units = "mins"))
Error in as.POSIXct(time1) : object 'end_time' not found
start_time end_time idletime
<dttm> <dttm> <???>
2017-01-09 10:13:28 2017-01-09 10:25:45 89 (12 minutes and 17 seconds is 89 seconds)