Python 在Spark中,如何将groupBy与Spark submit一起使用?

Python 在Spark中,如何将groupBy与Spark submit一起使用?,python,group-by,apache-spark,Python,Group By,Apache Spark,我有一个spark python脚本,里面有一个groupBy。特别是,结构是 import operator result = sc.textFile(...).map(...).groupBy(...).map(...).reduce(operator.add) 当我在ipython pyspark外壳中运行这个程序时,它工作得很好。但是,当我尝试编写脚本并通过spark submit运行它时,我得到了一个pickle.PicklingError:Can't pickle builtin错

我有一个spark python脚本,里面有一个groupBy。特别是,结构是

import operator
result = sc.textFile(...).map(...).groupBy(...).map(...).reduce(operator.add)

当我在ipython pyspark外壳中运行这个程序时,它工作得很好。但是,当我尝试编写脚本并通过spark submit运行它时,我得到了一个pickle.PicklingError:Can't pickle builtin错误,引用groupBy作为关注点。有一个已知的解决方法吗?

事实证明,pickle有很多事情做不到,包括lambdas。我做了一些,需要更加小心。

Spark使用自己的cloudpickle分支来扩展Pickle以支持其他类型,包括lambdas。如果你能想出一个小的,独立的例子,一个Spark程序由于这个酸洗错误而失败,你能在上打开一个问题,这样我们就可以解决它吗?谢谢嗨,乔希。我最终改变了程序的结构,但遇到了我在这里写的一致错误:。你介意看一下吗?