Python PySpark：在倒计时的窗口上计算累积和_Python_Pyspark_Pyspark Sql_Cumsum

Python PySpark：在倒计时的窗口上计算累积和

python pyspark

Python PySpark：在倒计时的窗口上计算累积和,python,pyspark,pyspark-sql,cumsum,Python,Pyspark,Pyspark Sql,Cumsum,我有一个数据框，其中已经计算了日期和天数的差异值。的目标是提取以下日期： -具有天差异值>90 -累计天数_diff值>90 我认为需要进行累积和计算。所以我们要做的是：在不同的天数应用累积和运算，但当累积和达到特定数字时，它应该倒计时我将提供与我使用的数据几乎相同的数据。让我们将此限制修正为90并创建数据帧： from pyspark.sql.functions import * from pyspark.sql.Window import * limit = 90 # We'll t

我有一个数据框，其中已经计算了日期和天数的差异值。的目标是提取以下日期：
-具有天差异值>90
-累计天数_diff值>90

我认为需要进行累积和计算。所以我们要做的是：
在不同的天数应用累积和运算，但当累积和达到特定数字时，它应该倒计时

我将提供与我使用的数据几乎相同的数据。让我们将此限制修正为90并创建数据帧：

from pyspark.sql.functions import *
from pyspark.sql.Window import *

limit = 90
# We'll try to find it with a null value that shouldn't bother us
values = [(1, '2018-12-26', 7), (1, '2018-12-19', 5), (1, '2018-12-14', 38),
        (1, '2018-11-06', 10), (1, '2018-10-27', 61), (1, '2018-08-27', 17), 
       (1, '2018-08-10', 37), (1, '2018-07-04', 1), (1, '2018-07-03', 1), 
       (1, '2018-07-02', 3), (1, '2018-06-29', 51), (1, '2018-05-09', 5), 
       (1, '2018-05-04', 22), (1, '2018-04-12', 58), (1, '2018-02-13', 13)
       (1, '2018-01-31', None)]

df = spark.createDataFrame(values, ['id', 'date', 'days_diff']).orderBy('date')
df.show()
+---+----------+---------+
| id|      date|days_diff|
+---+----------+---------+
|  1|2018-01-31|     null|
|  1|2018-02-13|       13|
|  1|2018-04-12|       58|
|  1|2018-05-04|       22|
|  1|2018-05-09|        5|
|  1|2018-06-29|       51|
|  1|2018-07-02|        3|
|  1|2018-07-03|        1|
|  1|2018-07-04|        1|
|  1|2018-08-10|       37|
|  1|2018-08-27|       17|
|  1|2018-10-27|       61|
|  1|2018-11-06|       10|
|  1|2018-12-14|       38|
|  1|2018-12-19|        5|
|  1|2018-12-26|        7|
+---+----------+---------+

以下是我发现的一种计算天数累计和的方法：

win_spec = (Window.orderBy('id', 'date').rowsBetween(Window.unboundedPreceding, 0))
df_cum = df.withColumn('days_diff_cumsum', sum(df.days_diff).over(win_spec))

它给了我们：

+---+----------+---------+----------------+
| id|      date|days_diff|diff_days_cumsum|
+---+----------+---------+----------------+
|  1|2018-01-31|     null|            null|
|  1|2018-02-13|       13|              13|
|  1|2018-04-12|       58|              71|
|  1|2018-05-04|       22|              93|
|  1|2018-05-09|        5|              98|
|  1|2018-06-29|       51|             149|
|  1|2018-07-02|        3|             152|
|  1|2018-07-03|        1|             153|
|  1|2018-07-04|        1|             154|
|  1|2018-08-10|       37|             191|
|  1|2018-08-27|       17|             208|
|  1|2018-10-27|       61|             269|
|  1|2018-11-06|       10|             279|
|  1|2018-12-14|       38|             317|
|  1|2018-12-19|        5|             322|
|  1|2018-12-26|        7|             329|
+---+----------+---------+----------------+

有人有更进一步的想法吗