Pyspark数据帧/Spark SQL中中间有间隙的滑动窗口_Pyspark_Time Series_Pyspark Dataframes_Windowing

Pyspark数据帧/Spark SQL中中间有间隙的滑动窗口

pyspark

Pyspark数据帧/Spark SQL中中间有间隙的滑动窗口,pyspark,time-series,pyspark-dataframes,windowing,Pyspark,Time Series,Pyspark Dataframes,Windowing,我是Pyspark的新手，我的大部分数据工作都使用熊猫。我正在尝试使用Pyspark的滑动窗口和窗口函数从我的数据集中进行采样，理想情况下，我希望滑动窗口时在行之间留出间隙我想知道在介于或行之间的方法中是否有步长参数（我在它们的文档中找不到任何参数）示例：行集合如下（假设每行都是日期）我想说，选择前3行，在中间留出2行，然后选择下3行比如：A、B、CC、D、EE、F、GG、H、I等我试过这个： windowSpec = Window.orderBy(func.col("column")

我是Pyspark的新手，我的大部分数据工作都使用熊猫。我正在尝试使用

Pyspark的滑动窗口和窗口
函数从我的数据集中进行采样，理想情况下，我希望滑动窗口时在行之间留出间隙
我想知道在介于或行之间的方法中是否有步长
参数（我在它们的文档中找不到任何参数）
示例：行集合如下（假设每行都是日期）

我想说，选择前3行
，在中间留出2行，然后选择下3行

比如：A、B、C
<代码>C、D、E
<代码>E、F、G
<代码>G、H、I
等
我试过这个：
windowSpec = Window.orderBy(func.col("column")).rangeBetween(start, end)

显然，上面的截取只在开始和结束之间逻辑地滑动数据，但如果逻辑上满足条件，则不能灵活地跳过中间的任何行
非常感谢您的帮助。蒂亚 您始终可以选择根据逻辑筛选出正确的数据。比如保留A、C、E、G行@samkart谢谢你的慷慨回应。我们还不想删除任何行，我们想用不同的滑动技术进行实验，看看哪些数据能与我们的底层模型很好地结合。
windowSpec = Window.orderBy(func.col("column")).rangeBetween(start, end)