Python PySpark:从顺序观测数据帧创建Instants数据帧
假设您得到了一个包含变量值观测值的数据框。每个观测值都保存为三个变量,即时间戳和值。这个布局有点像一个“” 数据被加载到一个Spark数据帧中,时间戳被采样,这样我们就有了一个特定时间戳的每个变量的值 问题:我如何才能有效地将其转换/转换为以下内容:Python PySpark:从顺序观测数据帧创建Instants数据帧,python,time-series,pyspark,spark-dataframe,Python,Time Series,Pyspark,Spark Dataframe,假设您得到了一个包含变量值观测值的数据框。每个观测值都保存为三个变量,即时间戳和值。这个布局有点像一个“” 数据被加载到一个Spark数据帧中,时间戳被采样,这样我们就有了一个特定时间戳的每个变量的值 问题:我如何才能有效地将其转换/转换为以下内容: #Time 852-YF-007 852-YF-008 852-YF-009 #2016-05-10 23:00:00 4 5 2 #
#Time 852-YF-007 852-YF-008 852-YF-009
#2016-05-10 23:00:00 4 5 2
#2016-05-11 04:00:00 4 3 9
#...
列的数量取决于变量的数量。每列是时间序列(该变量的所有采样值),而行是时间戳注意:时间戳的数量将远远大于变量的数量
更新:它与透视表相关,但我没有固定数量的列。这个数字随变量的数量而变化。Hmm的可能重复,不太确定,因为您提到的示例有固定的模式和固定的列数。也许有人可以使用spark ts?提供一个样本,可能是Hmm的副本,但不太确定,因为您提到的示例具有固定的模式和固定的列数。也许有人可以用spark ts提供样品?
#Time 852-YF-007 852-YF-008 852-YF-009
#2016-05-10 23:00:00 4 5 2
#2016-05-11 04:00:00 4 3 9
#...