在pyspark中的collect_列表中包含空值
在使用在pyspark中的collect_列表中包含空值,pyspark,Pyspark,在使用pyspark时,我试图在collect\u list中包含空值,但是collect\u list操作排除nulls。我已经查看了以下帖子。然而,给出的答案不是我想要的 我有这样一个数据帧df | id | family | date | ---------------------------- | 1 | Prod | null | | 2 | Dev | 2019-02-02 | | 3 | Prod | 2017-03-08 | 以下是我
pyspark
时,我试图在collect\u list
中包含空值,但是collect\u list
操作排除nulls
。我已经查看了以下帖子。然而,给出的答案不是我想要的
我有这样一个数据帧df
| id | family | date |
----------------------------
| 1 | Prod | null |
| 2 | Dev | 2019-02-02 |
| 3 | Prod | 2017-03-08 |
以下是我目前的代码:
df.groupby(“家族”).agg(f.collect\u list(“日期”).alias(“entry\u date”))
这给了我如下输出:
| family | date |
-----------------------
| Prod |[2017-03-08]|
| Dev |[2019-02-02]|
我真正想要的是:
| family | date |
-----------------------------
| Prod |[null, 2017-03-08]|
| Dev |[2019-02-02] |
有人能帮我吗?谢谢大家! 一个可能的解决方法是用另一个值替换所有空值。(也许这不是最好的方法,但它仍然是一个解决方案) 应该给你:
| family | date |
-----------------------------
| Prod |[my_null, 2017-03-08]|
| Dev |[2019-02-02] |
| family | date |
-----------------------------
| Prod |[my_null, 2017-03-08]|
| Dev |[2019-02-02] |