Python 如何使用reduceKey函数获取未配对记录

Python 如何使用reduceKey函数获取未配对记录,python,apache-spark,pyspark,rdd,Python,Apache Spark,Pyspark,Rdd,我想根据密钥合并2条记录,但不想错过未配对的记录。例如,我有以下成对RDD: (key=1, (2, created_on)) (key=1, (3, created_on)) (key=2 (5, created_on)) 现在,当我对最新的'created\u on'使用reduceByKeyon函数时,它合并前2条记录,并得到1条最新的记录。这是正确的行为 但是,第三条记录丢失了。如何获取未配对的rdd记录,以便将其合并到合并的rdd?我不确定我是否理解您如何拥有您描述的rdd。您的第三

我想根据密钥合并2条记录,但不想错过未配对的记录。例如,我有以下成对RDD:

(key=1, (2, created_on))
(key=1, (3, created_on))
(key=2 (5, created_on))
现在,当我对最新的
'created\u on'
使用
reduceByKey
on函数时,它合并前2条记录,并得到1条最新的记录。这是正确的行为


但是,第三条记录丢失了。如何获取未配对的rdd记录,以便将其合并到合并的rdd?

我不确定我是否理解您如何拥有您描述的
rdd
。您的第三条记录缺少“键”。它是否应该类似于
(无,(5,创建于))
?你能把你的问题包括在你的代码、你当前得到的输出和你想要的输出中吗?是的,保罗,你是对的。。编辑的问题。。我的问题是如何获得你提到的非配对记录。请包括你正在使用的代码。看见