groupByKey或reduceByKey[spark/python]_Python_Key

groupByKey或reduceByKey[spark/python]

python

groupByKey或reduceByKey[spark/python],python,key,Python,Key,我有这样一个数据集，它表示[（电影、导演，$）] 我想通过使用Director作为键对它进行分组导演1（电影X，$Y）、导演1（电影Z，$T）、导演2（电影H，$C）等等然后可以从每个导演那里得到最高美元的电影我应该使用spark（与pythonlang一起）来做这个练习，所以映射reduce函数。我一直在尝试不同的解决方案，但我对此还是新手编辑：我已经试着申请了 .groupBy(lambda x: x[1]) 我得到了 ('David Yates', <pyspark.re

我有这样一个数据集，它表示[（电影、导演，$）]

我想通过使用Director作为键对它进行分组

导演1（电影X，$Y）、导演1（电影Z，$T）、导演2（电影H，$C）等等

然后可以从每个导演那里得到最高美元的电影

我应该使用spark（与pythonlang一起）来做这个练习，所以映射reduce函数。我一直在尝试不同的解决方案，但我对此还是新手

编辑：我已经试着申请了

.groupBy(lambda x: x[1])

我得到了

('David Yates', <pyspark.resultiterable.ResultIterable at 0x7fa2ff22a190>),
 ('Woody Allen', <pyspark.resultiterable.ResultIterable at 0x7fa2fea5f820>),
 ('Yang Zhang', <pyspark.resultiterable.ResultIterable at 0x7fa2fea5f880>),

（'David Yates'，），
（‘伍迪·艾伦’，），
("杨章"),，

我想这是一种分组，但我不知道如何处理结果的第二部分

非常感谢你的帮助^^

('David Yates', <pyspark.resultiterable.ResultIterable at 0x7fa2ff22a190>),
 ('Woody Allen', <pyspark.resultiterable.ResultIterable at 0x7fa2fea5f820>),
 ('Yang Zhang', <pyspark.resultiterable.ResultIterable at 0x7fa2fea5f880>),