Pyspark数据帧/Spark SQL中中间有间隙的滑动窗口
我是Pyspark的新手,我的大部分数据工作都使用熊猫。我正在尝试使用Pyspark数据帧/Spark SQL中中间有间隙的滑动窗口,pyspark,time-series,pyspark-dataframes,windowing,Pyspark,Time Series,Pyspark Dataframes,Windowing,我是Pyspark的新手,我的大部分数据工作都使用熊猫。我正在尝试使用Pyspark的滑动窗口和窗口函数从我的数据集中进行采样,理想情况下,我希望滑动窗口时在行之间留出间隙 我想知道在介于或行之间的方法中是否有步长参数(我在它们的文档中找不到任何参数) 示例:行集合如下(假设每行都是日期) 我想说,选择前3行,在中间留出2行,然后选择下3行 比如:A、B、CC、D、EE、F、GG、H、I等 我试过这个: windowSpec = Window.orderBy(func.col("column")
Pyspark的滑动窗口和窗口
函数从我的数据集中进行采样,理想情况下,我希望滑动窗口时在行之间留出间隙
我想知道在介于或行之间的方法中是否有步长
参数(我在它们的文档中找不到任何参数)
示例:行集合如下(假设每行都是日期)
我想说,选择前3行
,在中间留出2行,然后选择下3行
比如:A、B、C
<代码>C、D、E
<代码>E、F、G
<代码>G、H、I
等
我试过这个:
windowSpec = Window.orderBy(func.col("column")).rangeBetween(start, end)
显然,上面的截取只在开始和结束之间逻辑地滑动数据,但如果逻辑上满足条件,则不能灵活地跳过中间的任何行
非常感谢您的帮助。蒂亚 您始终可以选择根据逻辑筛选出正确的数据。比如保留A、C、E、G行@samkart谢谢你的慷慨回应。我们还不想删除任何行,我们想用不同的滑动技术进行实验,看看哪些数据能与我们的底层模型很好地结合。
windowSpec = Window.orderBy(func.col("column")).rangeBetween(start, end)