Scala 火花闭合参数绑定_Scala_Apache Spark

Scala 火花闭合参数绑定

scala apache-spark

Scala 火花闭合参数绑定,scala,apache-spark,Scala,Apache Spark,我在Scala与Apache Spark合作我在尝试使用第二个RDD的数据操作一个RDD时遇到问题。我试图将第二个RDD作为参数传递给一个函数，该函数被“映射”到第一个RDD，但在该函数上创建的闭包似乎绑定了该值的未初始化版本下面是一段简单的代码，显示了我看到的问题类型。（我第一次遇到麻烦的真实例子更大，也更难理解）我不太理解Spark闭包的参数绑定规则我真正想要的是一种基本的方法或模式，用于如何使用另一个RDD的内容来操作一个RDD（以前在别处构建）在下面的代码中，调用Test1.p

我在Scala与Apache Spark合作

我在尝试使用第二个RDD的数据操作一个RDD时遇到问题。我试图将第二个RDD作为参数传递给一个函数，该函数被“映射”到第一个RDD，但在该函数上创建的闭包似乎绑定了该值的未初始化版本

下面是一段简单的代码，显示了我看到的问题类型。（我第一次遇到麻烦的真实例子更大，也更难理解）

我不太理解Spark闭包的参数绑定规则

我真正想要的是一种基本的方法或模式，用于如何使用另一个RDD的内容来操作一个RDD（以前在别处构建）

在下面的代码中，调用Test1.process（sc）将失败，findSquare中的指针访问为空（因为闭包中的第二个参数绑定未初始化）

对象测试1{
def过程（sc:SparkContext）{
val squaresMap=（1到10）.map（n=>（n，n*n））
val squaresRDD=sc.parallelize（squaresMap）
val primes=sc.parallelize（列表（2,3,5,7））
对于（p kv._1==n），首先
}
}

RDD是不可序列化的，因此不能在RDD传输格式中使用RDD。然后我从未见过用for语句枚举rdd，通常我使用foreach语句，它是RDDAPI的一部分

为了组合来自两个rdd的数据，您可以利用连接、联合或广播（如果您的rdd很小）

您遇到的问题与闭包或rdd无关，这与流行的观点相反

它只是打破了一个基本的火花规则，即你不能从另一个动作或转换中触发一个动作或转换*，这个问题的不同变体已经被问了很多次

要理解为什么会出现这种情况，您必须考虑架构：

```
SparkContext
```
由驱动程序管理
在转换中发生的所有事情都在工作者身上执行。每个工作人员只能访问自己的部分数据，不与其他工作人员通信**

如果您想使用多个RDD的内容，您必须使用组合RDD的转换之一，如

join

、

cartesian

、

zip

或

union

在这里，您很可能（我不确定为什么要传递tuple并只使用该tuple的第一个元素）想要使用广播变量：

val squaresMapBD = sc.broadcast(squaresMap)

def findSquare(n: Int): Seq[(Int, Int)] = {
  squaresMapBD.value
    .filter{case (k, v) => k == n}
    .map{case (k, v) => (n, k)}
    .take(1)
}

primes.flatMap(findSquare)

或笛卡尔：

primes
  .cartesian(squaresRDD)
  .filter{case (n, (k, _)) => n == k}.map{case (n, (k, _)) => (n, k)}

将

素数

转换为虚拟对

（Int，null）

和

连接

将更有效：

primes.map((_, null)).join(squaresRDD).map(...)

但根据您的评论，我假设您对存在自然连接条件的场景感兴趣

根据上下文，您也可以考虑使用数据库或文件来存储公共数据。

另一方面，RDD是不可移植的，因此您不能简单地将

用于

循环。要做到这一点，你必须先收集或转换成本地读写器。您还可以使用

foreach

方法

*准确地说，您无法访问

SparkContext

**Torrent广播和树聚合涉及执行者之间的通信，因此在技术上是可行的。

我以前看到过一些评论，大意是RDD是可序列化的。我在下面的帖子中发现答案非常贴切。关于如何处理一个数据集与另一个数据集之间的操作（它们是基本不同类型的数据，不能自然地“连接”等等），我脑子里仍然有一个问题。我碰巧使用的是旧版本的Spark（1.2）正如在另一篇文章的回答中提到的，当您尝试执行我所做的操作时，会生成一个空指针异常，因为RDD反序列化后未设置SparkContext字段。RDD是可序列化的，请参见和。是的，这是真的，我的错。重点是另一个变换中的变换。谢谢你的深入解释凯，谢谢。我对Spark还很陌生，还没有遇到你提到的规则（或者如果我在什么地方看到它的话，它还没有击中我的要害）。在处理另一个数据集时，我自然会想到“查阅”一个数据集，但我显然需要调整我的想法。感谢您提供的补充信息。我只学习了大约2周的Spark，所以我仍在努力将基本概念内化。在某些情况下，广播变量可能正是合适的，我想我应该将arg传递给映射函数。根据数据的大小，您应该按以下顺序传递它：argument

primes.map((_, null)).join(squaresRDD).map(...)