Apache spark 如何在Pyspark数据帧中训练测试分割时间序列数据
我想在基于时间的排序Pyspark数据帧上进行列车测试拆分。假设前300行在列车组中,下200行在测试拆分中 我可以用-Apache spark 如何在Pyspark数据帧中训练测试分割时间序列数据,apache-spark,pyspark,apache-spark-sql,train-test-split,Apache Spark,Pyspark,Apache Spark Sql,Train Test Split,我想在基于时间的排序Pyspark数据帧上进行列车测试拆分。假设前300行在列车组中,下200行在测试拆分中 我可以用- train=df.show(300) 但是我如何从Pyspark数据帧中选择最后200行呢?假设您有一个大小为500的数据帧df,按时间列排序 一个简单的方法是对训练集使用limit,并对测试集的反向数据帧使用limit 从pyspark.sql.functions导入desc 列车=测向极限(300) 测试=df.orderBy(描述(“时间”)).limit(200).
train=df.show(300)
但是我如何从Pyspark数据帧中选择最后200行呢?假设您有一个大小为500的数据帧
df
,按时间
列排序
一个简单的方法是对训练集使用limit,并对测试集的反向数据帧使用limit
从pyspark.sql.functions导入desc
列车=测向极限(300)
测试=df.orderBy(描述(“时间”)).limit(200).orderBy(“时间”)
假设您有一个大小为500的数据帧df
,按时间
列排序
一个简单的方法是对训练集使用limit,并对测试集的反向数据帧使用limit
从pyspark.sql.functions导入desc
列车=测向极限(300)
测试=df.orderBy(描述(“时间”)).limit(200).orderBy(“时间”)
相关职位:,以及相关职位:,如果我们不知道数据帧的大小,不想使用计数和窗口函数作为计数和没有分区的窗口函数会降低性能。与什么相比?如果我们不知道数据帧的大小,不想使用计数和窗口函数作为计数和没有分区的窗口函数会怎么样降低性能。与什么相比?