Python 如何使用reduceKey函数获取未配对记录_Python_Apache Spark_Pyspark_Rdd

Python 如何使用reduceKey函数获取未配对记录

python apache-spark pyspark

Python 如何使用reduceKey函数获取未配对记录,python,apache-spark,pyspark,rdd,Python,Apache Spark,Pyspark,Rdd,我想根据密钥合并2条记录，但不想错过未配对的记录。例如，我有以下成对RDD： (key=1, (2, created_on)) (key=1, (3, created_on)) (key=2 (5, created_on)) 现在，当我对最新的'created\u on'使用reduceByKeyon函数时，它合并前2条记录，并得到1条最新的记录。这是正确的行为但是，第三条记录丢失了。如何获取未配对的rdd记录，以便将其合并到合并的rdd？我不确定我是否理解您如何拥有您描述的rdd。您的第三

我想根据密钥合并2条记录，但不想错过未配对的记录。例如，我有以下成对RDD：

(key=1, (2, created_on))
(key=1, (3, created_on))
(key=2 (5, created_on))

现在，当我对最新的

'created\u on'

使用

reduceByKey

on函数时，它合并前2条记录，并得到1条最新的记录。这是正确的行为

但是，第三条记录丢失了。如何获取未配对的rdd记录，以便将其合并到合并的rdd？

我不确定我是否理解您如何拥有您描述的

rdd

。您的第三条记录缺少“键”。它是否应该类似于

（无，（5，创建于））

？你能把你的问题包括在你的代码、你当前得到的输出和你想要的输出中吗？是的，保罗，你是对的。。编辑的问题。。我的问题是如何获得你提到的非配对记录。请包括你正在使用的代码。看见