如何在sparkR中测试数据帧中的条目_R_Sparkr

如何在sparkR中测试数据帧中的条目

如何在sparkR中测试数据帧中的条目,r,sparkr,R,Sparkr,我在sparkR中有一个名为pgz的数据帧。它包含user\u id和time。对于固定用户_idkI获得 y <- filter(pgz, pgz$user_id == k) 我想保存所有比fixtime大倍的用户id。如何做到这一点？为了开始，让我们创建一些示例数据进行测试 set.seed(1) dd = data.frame(id = base::sample(1:3, 4,TRUE), times = base::sample(c("2005

我在sparkR中有一个名为

pgz

的数据帧。它包含

user\u id

和

time

。对于固定用户_id

I获得

y <- filter(pgz, pgz$user_id == k)

我想保存所有比fixtime大倍的用户id。

如何做到这一点？

为了开始，让我们创建一些示例数据进行测试

set.seed(1)
dd = data.frame(id = base::sample(1:3, 4,TRUE), 
                times = base::sample(c("2005-02-04" , "2005-06-06", "2007-02-04" , "2006-06-06"), 
                                     12, TRUE))
dd$times = as.Date(dd$times)
NROW(dd[dd$id==1 & dd$times > as.Date("2006-01-01"),])

对于这个数据集，我们应该得到答案2

创建Spark数据帧

dd_sp = createDataFrame(sqlContext, dd)

## This seems a bit clunky, bit it works.
summarize(dd_sp_k, count = n(dd_sp_k$times)) %>%
  head

然后过滤

dd_sp_k = filter(dd_sp, dd_sp$id== 1 & 
             dd_sp$times > as.Date("2006-01-01"))

然后我们可以使用

summary

获得数据帧的长度

dd_sp = createDataFrame(sqlContext, dd)

## This seems a bit clunky, bit it works.
summarize(dd_sp_k, count = n(dd_sp_k$times)) %>%
  head

这等于2