Pyspark数据帧/Spark SQL中中间有间隙的滑动窗口

Pyspark数据帧/Spark SQL中中间有间隙的滑动窗口,pyspark,time-series,pyspark-dataframes,windowing,Pyspark,Time Series,Pyspark Dataframes,Windowing,我是Pyspark的新手,我的大部分数据工作都使用熊猫。我正在尝试使用Pyspark的滑动窗口和窗口函数从我的数据集中进行采样,理想情况下,我希望滑动窗口时在行之间留出间隙 我想知道在介于或行之间的方法中是否有步长参数(我在它们的文档中找不到任何参数) 示例:行集合如下(假设每行都是日期) 我想说,选择前3行,在中间留出2行,然后选择下3行 比如:A、B、CC、D、EE、F、GG、H、I等 我试过这个: windowSpec = Window.orderBy(func.col("column")

我是Pyspark的新手,我的大部分数据工作都使用熊猫。我正在尝试使用
Pyspark的
滑动窗口和
窗口
函数从我的数据集中进行采样,理想情况下,我希望滑动窗口时在行之间留出间隙

我想知道在
介于
行之间的
方法中是否有
步长
参数(我在它们的文档中找不到任何参数)

示例:行集合如下(假设每行都是日期)

我想说,
选择前3行
,在中间留出2行,然后
选择下3行

比如:
A、B、C
<代码>C、D、E
<代码>E、F、G
<代码>G、H、I

我试过这个:

windowSpec = Window.orderBy(func.col("column")).rangeBetween(start, end)
显然,上面的截取只在开始和结束之间逻辑地滑动数据,但如果逻辑上满足条件,则不能灵活地跳过中间的任何行


非常感谢您的帮助。蒂亚

您始终可以选择根据逻辑筛选出正确的数据。比如保留A、C、E、G行@samkart谢谢你的慷慨回应。我们还不想删除任何行,我们想用不同的滑动技术进行实验,看看哪些数据能与我们的底层模型很好地结合。
windowSpec = Window.orderBy(func.col("column")).rangeBetween(start, end)