groupByKey或reduceByKey[spark/python]

groupByKey或reduceByKey[spark/python],python,key,Python,Key,我有这样一个数据集,它表示[(电影、导演,$)] 我想通过使用Director作为键对它进行分组 导演1(电影X,$Y)、导演1(电影Z,$T)、导演2(电影H,$C)等等 然后可以从每个导演那里得到最高美元的电影 我应该使用spark(与pythonlang一起)来做这个练习,所以映射reduce函数。 我一直在尝试不同的解决方案,但我对此还是新手 编辑:我已经试着申请了 .groupBy(lambda x: x[1]) 我得到了 ('David Yates', <pyspark.re

我有这样一个数据集,它表示[(电影、导演,$)]

我想通过使用Director作为键对它进行分组

导演1(电影X,$Y)、导演1(电影Z,$T)、导演2(电影H,$C)等等

然后可以从每个导演那里得到最高美元的电影

我应该使用spark(与pythonlang一起)来做这个练习,所以映射reduce函数。 我一直在尝试不同的解决方案,但我对此还是新手

编辑:我已经试着申请了

.groupBy(lambda x: x[1])
我得到了

('David Yates', <pyspark.resultiterable.ResultIterable at 0x7fa2ff22a190>),
 ('Woody Allen', <pyspark.resultiterable.ResultIterable at 0x7fa2fea5f820>),
 ('Yang Zhang', <pyspark.resultiterable.ResultIterable at 0x7fa2fea5f880>),
('David Yates',),
(‘伍迪·艾伦’,),
("杨章"),,
我想这是一种分组,但我不知道如何处理结果的第二部分

非常感谢你的帮助^^

('David Yates', <pyspark.resultiterable.ResultIterable at 0x7fa2ff22a190>),
 ('Woody Allen', <pyspark.resultiterable.ResultIterable at 0x7fa2fea5f820>),
 ('Yang Zhang', <pyspark.resultiterable.ResultIterable at 0x7fa2fea5f880>),