groupByKey或reduceByKey[spark/python]
我有这样一个数据集,它表示[(电影、导演,$)] 我想通过使用Director作为键对它进行分组 导演1(电影X,$Y)、导演1(电影Z,$T)、导演2(电影H,$C)等等 然后可以从每个导演那里得到最高美元的电影 我应该使用spark(与pythonlang一起)来做这个练习,所以映射reduce函数。 我一直在尝试不同的解决方案,但我对此还是新手 编辑:我已经试着申请了groupByKey或reduceByKey[spark/python],python,key,Python,Key,我有这样一个数据集,它表示[(电影、导演,$)] 我想通过使用Director作为键对它进行分组 导演1(电影X,$Y)、导演1(电影Z,$T)、导演2(电影H,$C)等等 然后可以从每个导演那里得到最高美元的电影 我应该使用spark(与pythonlang一起)来做这个练习,所以映射reduce函数。 我一直在尝试不同的解决方案,但我对此还是新手 编辑:我已经试着申请了 .groupBy(lambda x: x[1]) 我得到了 ('David Yates', <pyspark.re
.groupBy(lambda x: x[1])
我得到了
('David Yates', <pyspark.resultiterable.ResultIterable at 0x7fa2ff22a190>),
('Woody Allen', <pyspark.resultiterable.ResultIterable at 0x7fa2fea5f820>),
('Yang Zhang', <pyspark.resultiterable.ResultIterable at 0x7fa2fea5f880>),
('David Yates',),
(‘伍迪·艾伦’,),
("杨章"),,
我想这是一种分组,但我不知道如何处理结果的第二部分
非常感谢你的帮助^^
('David Yates', <pyspark.resultiterable.ResultIterable at 0x7fa2ff22a190>),
('Woody Allen', <pyspark.resultiterable.ResultIterable at 0x7fa2fea5f820>),
('Yang Zhang', <pyspark.resultiterable.ResultIterable at 0x7fa2fea5f880>),