Pyspark 利用Spark和DataFrames计算积分

Pyspark 利用Spark和DataFrames计算积分,pyspark,apache-spark-sql,integral,Pyspark,Apache Spark Sql,Integral,我有一个Spark数据框,表示特定设备在特定时刻(已盖销)的能耗(单位:千瓦)。我想用kWh计算能耗,这意味着计算给定时间间隔内该数据集的积分。如何使用Spark完成此任务?您想如何估计能耗?您尝试过什么?我想计算两个数据点之间每个梯形的面积之和(通过两个连续数据点的线性函数下方的面积)。我仍在搜索,尚未尝试任何操作。窗口功能应该可以帮助。下面是一个如何获取滞后值的示例(潜在客户值将类似),谢谢!它解决了我的问题。

我有一个Spark
数据框
,表示特定设备在特定时刻(已盖销)的能耗(单位:千瓦)。我想用kWh计算能耗,这意味着计算给定时间间隔内该数据集的积分。如何使用Spark完成此任务?

您想如何估计能耗?您尝试过什么?我想计算两个数据点之间每个梯形的面积之和(通过两个连续数据点的线性函数下方的面积)。我仍在搜索,尚未尝试任何操作。窗口功能应该可以帮助。下面是一个如何获取滞后值的示例(潜在客户值将类似),谢谢!它解决了我的问题。