Scalability 在reduce阶段使用R函数
我正试图找到数据帧的相关系数,并完美地工作 使用cor()从数据帧中查找相关系数是否有问题,或者对于大数据实现此代码是否有好处Scalability 在reduce阶段使用R函数,scalability,rhadoop,rmr2,Scalability,Rhadoop,Rmr2,我正试图找到数据帧的相关系数,并完美地工作 使用cor()从数据帧中查找相关系数是否有问题,或者对于大数据实现此代码是否有好处 cc = function(input, output = NULL){ cc.map = function(., v) { data <- v[-1,] data[,1:length(data)] = lapply(data[,1:length(data)], as.numeric) key
cc = function(input, output = NULL){
cc.map = function(., v)
{
data <- v[-1,]
data[,1:length(data)] = lapply(data[,1:length(data)], as.numeric)
keyval("korelasi",data)
}
cc.reduce =function(k, v )
{
keyval(k, cor(v))
}
mapreduce(
input = input ,
output = output,
input.format = make.input.format("csv",sep=",",fill = TRUE,stringsAsFactors=FALSE),
map = cc.map,
reduce = cc.reduce,
combine = T)}
cc=function(输入,输出=NULL){
cc.map=函数(,v)
{
datacor
是计算R中矩阵相关性的标准方法。您已经在reduce函数中完成了这项工作,因此hadoop将为大型数据集处理这项工作