如何在sparkR中测试数据帧中的条目
我在sparkR中有一个名为如何在sparkR中测试数据帧中的条目,r,sparkr,R,Sparkr,我在sparkR中有一个名为pgz的数据帧。它包含user\u id和time。对于固定用户_idkI获得 y <- filter(pgz, pgz$user_id == k) 我想保存所有比fixtime大倍的用户id。 如何做到这一点?为了开始,让我们创建一些示例数据进行测试 set.seed(1) dd = data.frame(id = base::sample(1:3, 4,TRUE), times = base::sample(c("2005
pgz
的数据帧。它包含user\u id
和time
。对于固定用户_idk
I获得
y <- filter(pgz, pgz$user_id == k)
我想保存所有比fixtime大倍的用户id。
如何做到这一点?为了开始,让我们创建一些示例数据进行测试
set.seed(1)
dd = data.frame(id = base::sample(1:3, 4,TRUE),
times = base::sample(c("2005-02-04" , "2005-06-06", "2007-02-04" , "2006-06-06"),
12, TRUE))
dd$times = as.Date(dd$times)
NROW(dd[dd$id==1 & dd$times > as.Date("2006-01-01"),])
对于这个数据集,我们应该得到答案2
创建Spark数据帧
dd_sp = createDataFrame(sqlContext, dd)
## This seems a bit clunky, bit it works.
summarize(dd_sp_k, count = n(dd_sp_k$times)) %>%
head
然后过滤
dd_sp_k = filter(dd_sp, dd_sp$id== 1 &
dd_sp$times > as.Date("2006-01-01"))
然后我们可以使用summary
获得数据帧的长度
dd_sp = createDataFrame(sqlContext, dd)
## This seems a bit clunky, bit it works.
summarize(dd_sp_k, count = n(dd_sp_k$times)) %>%
head
这等于2