Python 在Spark中，如何将groupBy与Spark submit一起使用？_Python_Group By_Apache Spark

Python 在Spark中，如何将groupBy与Spark submit一起使用？

python apache-spark

Python 在Spark中，如何将groupBy与Spark submit一起使用？,python,group-by,apache-spark,Python,Group By,Apache Spark,我有一个spark python脚本，里面有一个groupBy。特别是，结构是 import operator result = sc.textFile(...).map(...).groupBy(...).map(...).reduce(operator.add) 当我在ipython pyspark外壳中运行这个程序时，它工作得很好。但是，当我尝试编写脚本并通过spark submit运行它时，我得到了一个pickle.PicklingError:Can't pickle builtin错

我有一个spark python脚本，里面有一个groupBy。特别是，结构是

import operator
result = sc.textFile(...).map(...).groupBy(...).map(...).reduce(operator.add)

当我在ipython pyspark外壳中运行这个程序时，它工作得很好。但是，当我尝试编写脚本并通过spark submit运行它时，我得到了一个pickle.PicklingError:Can't pickle builtin错误，引用groupBy作为关注点。有一个已知的解决方法吗？

事实证明，pickle有很多事情做不到，包括lambdas。我做了一些，需要更加小心。

Spark使用自己的cloudpickle分支来扩展Pickle以支持其他类型，包括lambdas。如果你能想出一个小的，独立的例子，一个Spark程序由于这个酸洗错误而失败，你能在上打开一个问题，这样我们就可以解决它吗？谢谢嗨，乔希。我最终改变了程序的结构，但遇到了我在这里写的一致错误：。你介意看一下吗？