Apache spark 如何在sparkR中绑定两个数据帧列?

Apache spark 如何在sparkR中绑定两个数据帧列?,apache-spark,apache-spark-sql,sparkr,Apache Spark,Apache Spark Sql,Sparkr,如何在spark 1.4的SparkR中绑定两列数据帧 蒂亚,阿伦没有办法做到这一点。这里有一个关于scala中spark(1.3)的问题。要做到这一点,唯一的方法是使用某种row.number,因为这样您就可以加入row.number。为什么?因为您只能基于其他现有列联接表或添加列 data1 <- createDataFrame(sqlContext, data.frame(a=c(1,2,3))) data2 <- createDataFrame(sqlContext, dat

如何在spark 1.4的SparkR中绑定两列数据帧


蒂亚,阿伦

没有办法做到这一点。这里有一个关于scala中spark(1.3)的问题。要做到这一点,唯一的方法是使用某种row.number,因为这样您就可以加入row.number。为什么?因为您只能基于其他现有列联接表或添加列

data1 <- createDataFrame(sqlContext, data.frame(a=c(1,2,3)))
data2 <- createDataFrame(sqlContext, data.frame(b=c(2,3,4)))
是允许的,但是

withColumn(data1,"b",data2$b)

事实并非如此。从Spark将您的数据帧切成块来存储它的那一刻起,它就不知道如何绑定它们(它不知道行的顺序),只有当您有row.number时才知道。

您能否澄清一下。示例输入和预期输出是什么?@zero323与我们使用cbind()进行R编程时所做的相同。请参阅,了解sparkR 1.5是否支持此功能?
withColumn(data1,"b",data2$b)