在pyspark中的collect_列表中包含空值_Pyspark

在pyspark中的collect_列表中包含空值

pyspark

在pyspark中的collect_列表中包含空值,pyspark,Pyspark,在使用pyspark时，我试图在collect\u list中包含空值，但是collect\u list操作排除nulls。我已经查看了以下帖子。然而，给出的答案不是我想要的我有这样一个数据帧df | id | family | date | ---------------------------- | 1 | Prod | null | | 2 | Dev | 2019-02-02 | | 3 | Prod | 2017-03-08 | 以下是我

在使用

pyspark

时，我试图在

collect\u list

中包含空值，但是

collect\u list

操作排除

nulls

。我已经查看了以下帖子。然而，给出的答案不是我想要的

我有这样一个数据帧

df

| id | family | date       |
----------------------------
| 1  |  Prod  | null       |
| 2  |  Dev   | 2019-02-02 |
| 3  |  Prod  | 2017-03-08 |

以下是我目前的代码：

df.groupby（“家族”）.agg（f.collect\u list（“日期”）.alias（“entry\u date”））

这给了我如下输出：

| family | date       |
-----------------------
| Prod   |[2017-03-08]|
| Dev    |[2019-02-02]|

我真正想要的是：

| family | date             |
-----------------------------
| Prod   |[null, 2017-03-08]|
| Dev    |[2019-02-02]      |

有人能帮我吗？谢谢大家!

一个可能的解决方法是用另一个值替换所有空值。（也许这不是最好的方法，但它仍然是一个解决方案）

应该给你：

| family | date             |
-----------------------------
| Prod   |[my_null, 2017-03-08]|
| Dev    |[2019-02-02]      |

| family | date             |
-----------------------------
| Prod   |[my_null, 2017-03-08]|
| Dev    |[2019-02-02]      |