Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/r/79.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
如何在sparkR中测试数据帧中的条目_R_Sparkr - Fatal编程技术网

如何在sparkR中测试数据帧中的条目

如何在sparkR中测试数据帧中的条目,r,sparkr,R,Sparkr,我在sparkR中有一个名为pgz的数据帧。它包含user\u id和time。对于固定用户_idkI获得 y <- filter(pgz, pgz$user_id == k) 我想保存所有比fixtime大倍的用户id。 如何做到这一点?为了开始,让我们创建一些示例数据进行测试 set.seed(1) dd = data.frame(id = base::sample(1:3, 4,TRUE), times = base::sample(c("2005

我在sparkR中有一个名为
pgz
的数据帧。它包含
user\u id
time
。对于固定用户_id
k
I获得

y <- filter(pgz, pgz$user_id == k)
我想保存所有比fixtime大倍的用户id。
如何做到这一点?

为了开始,让我们创建一些示例数据进行测试

set.seed(1)
dd = data.frame(id = base::sample(1:3, 4,TRUE), 
                times = base::sample(c("2005-02-04" , "2005-06-06", "2007-02-04" , "2006-06-06"), 
                                     12, TRUE))
dd$times = as.Date(dd$times)
NROW(dd[dd$id==1 & dd$times > as.Date("2006-01-01"),])
对于这个数据集,我们应该得到答案2

创建Spark数据帧

dd_sp = createDataFrame(sqlContext, dd) 
## This seems a bit clunky, bit it works.
summarize(dd_sp_k, count = n(dd_sp_k$times)) %>%
  head
然后过滤

dd_sp_k = filter(dd_sp, dd_sp$id== 1 & 
             dd_sp$times > as.Date("2006-01-01"))
然后我们可以使用
summary
获得数据帧的长度

dd_sp = createDataFrame(sqlContext, dd) 
## This seems a bit clunky, bit it works.
summarize(dd_sp_k, count = n(dd_sp_k$times)) %>%
  head
这等于2