Pyspark 动态更新阈值和重置运行总数
我希望在查找列的累积和时动态设置一个新阈值,并在达到某个阈值时将其重置为0。一个简单的例子:如果初始列值是20,阈值是500,我想在它超过500时找到第一个实例。但是如果新的值是,比如说522,那么我们要寻找的下一个阈值是1022,而不是1000 我设法将这个答案()与Pyspark 动态更新阈值和重置运行总数,pyspark,apache-spark-sql,Pyspark,Apache Spark Sql,我希望在查找列的累积和时动态设置一个新阈值,并在达到某个阈值时将其重置为0。一个简单的例子:如果初始列值是20,阈值是500,我想在它超过500时找到第一个实例。但是如果新的值是,比如说522,那么我们要寻找的下一个阈值是1022,而不是1000 我设法将这个答案()与FLOOR函数结合使用,以确定它将超过阈值的时间(即500-1000-1500-2000),并重置那里的累积总和。但我需要能够动态地完成它 代码有点凌乱,所以我更多的是在一个简单的可复制的示例上寻找指导或某人来完成它
FLOOR
函数结合使用,以确定它将超过阈值的时间(即500-1000-1500-2000),并重置那里的累积总和。但我需要能够动态地完成它
代码有点凌乱,所以我更多的是在一个简单的可复制的示例上寻找指导或某人来完成它