Pyspark reduce中的意外错误
在pyspark中查找reduce的最大值时,我得到了以下意外结果Pyspark reduce中的意外错误,pyspark,Pyspark,在pyspark中查找reduce的最大值时,我得到了以下意外结果 agg.reduce(lambda a,b : a if a > b else b ) 我的样本数据是 (u'2013-10-17', 80325.0) (u'2014-01-01', 68521.0) (u'2013-11-10', 83691.0) (u'2013-11-14', 149289.0) (u'2013-11-18', 94756.0) (u'2014-01-30', 126171.0) 结果是 (
agg.reduce(lambda a,b : a if a > b else b )
我的样本数据是
(u'2013-10-17', 80325.0)
(u'2014-01-01', 68521.0)
(u'2013-11-10', 83691.0)
(u'2013-11-14', 149289.0)
(u'2013-11-18', 94756.0)
(u'2014-01-30', 126171.0)
结果是
(u'2014-07-24',97088.0)
结果应该超过94756
谢谢
sPradeep您应该比较tuple中的第二个值,如下所示:
agg.reduce(lambda a,b : a if a[1] > b[1] else b )
您应该比较元组中的第二个值,如下所示:
agg.reduce(lambda a,b : a if a[1] > b[1] else b )
只需将
max
与键一起使用即可:
rdd.max(key=lambda x: x[1])
只需将max
与键一起使用即可:
rdd.max(key=lambda x: x[1])
我为迟来的回复道歉,感谢您的帮助@MariuszI为迟来的回复道歉,感谢您的帮助@Mariusz