Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/scala/16.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
使用scala/spark聚合多个值_Scala_Apache Spark - Fatal编程技术网

使用scala/spark聚合多个值

使用scala/spark聚合多个值,scala,apache-spark,Scala,Apache Spark,我对spark和scala是新手。我想总结RDD中存在的所有值。下面是一个例子。 RDD是键值对,假设在进行一些连接和转换之后,RDD的输出有3条记录,如下所示,其中A是键: (A, List(1,1,1,1,1,1,1)) (A, List(1,1,1,1,1,1,1)) (A, List(1,1,1,1,1,1,1)) 现在我想将每个记录的所有值与其他记录中的相应值相加,所以输出应该如下 (A, List(3,3,3,3,3,3,3)) 谁能帮我一下吗。使用scala有没有可能实现这一点

我对spark和scala是新手。我想总结RDD中存在的所有值。下面是一个例子。 RDD是键值对,假设在进行一些连接和转换之后,RDD的输出有3条记录,如下所示,其中A是键:

(A, List(1,1,1,1,1,1,1))
(A, List(1,1,1,1,1,1,1))
(A, List(1,1,1,1,1,1,1))
现在我想将每个记录的所有值与其他记录中的相应值相加,所以输出应该如下

(A, List(3,3,3,3,3,3,3))
谁能帮我一下吗。使用scala有没有可能实现这一点


事先非常感谢

一个简单的方法是
reduceByKey

rdd.reduceByKey(
  (xs, ys) => xs.zip(ys).map { case (x, y) => x + y }
)
但它效率相当低,因为它在每次合并时都会创建一个新的
列表

您可以通过使用具有可变缓冲区的
aggregateByKey
等方法对此进行改进:

rdd.aggregateByKey(Array.fill(7)(0)) // Mutable buffer 
  // For seqOp we'll mutate accumulator 
  (acc, xs) => {
    for {
      (x, i) <- xs.zipWithIndex
    } acc(i) += x
    acc
  },
  // For performance you could modify acc1 as above
  (acc1, acc2) => acc1.zip(acc2).map { case(x, y) => x + y }
).mapValues(_.toList)
rdd.aggregateByKey(Array.fill(7)(0))//可变缓冲区
//对于Sekop,我们将变异累加器
(acc,xs)=>{
为了{
(x,i)acc1.zip(acc2.map{case(x,y)=>x+y}
).mapValues(u.toList)

也可以使用
数据帧
,但默认情况下,最新版本会单独安排聚合,因此在不调整配置的情况下,可能不值得这样做。

一种简单的方法是
简化bykey

rdd.reduceByKey(
  (xs, ys) => xs.zip(ys).map { case (x, y) => x + y }
)
但它效率相当低,因为它在每次合并时都会创建一个新的
列表

您可以通过使用具有可变缓冲区的
aggregateByKey
等方法对此进行改进:

rdd.aggregateByKey(Array.fill(7)(0)) // Mutable buffer 
  // For seqOp we'll mutate accumulator 
  (acc, xs) => {
    for {
      (x, i) <- xs.zipWithIndex
    } acc(i) += x
    acc
  },
  // For performance you could modify acc1 as above
  (acc1, acc2) => acc1.zip(acc2).map { case(x, y) => x + y }
).mapValues(_.toList)
rdd.aggregateByKey(Array.fill(7)(0))//可变缓冲区
//对于Sekop,我们将变异累加器
(acc,xs)=>{
为了{
(x,i)acc1.zip(acc2.map{case(x,y)=>x+y}
).mapValues(u.toList)

也可以使用
数据帧
,但默认情况下,最新版本会单独安排聚合,因此在不调整配置的情况下,可能不值得付出努力。

我尝试将它们全部分组,然后根据位置添加元素……但无法获得所需结果我尝试将它们全部分组,然后添加基于位置的元素…但无法获得所需的结果