Apache spark 填充Spark数据框中缺少的值
我正在尝试使用PySpark填充spark数据帧中缺少的值。但是没有任何正确的方法来做到这一点。我的任务是填充某些行相对于其上一行或下一行的缺失值。具体来说,我会将一行的0.0值更改为前一行的值,而对非零行不做任何操作。我确实在spark中看到了窗口函数,但它只支持一些简单的操作,如max、min、mean,这不适合我的情况。如果我们可以让一个用户定义的函数在给定的窗口上滑动,这将是最佳的。Apache spark 填充Spark数据框中缺少的值,apache-spark,pyspark,spark-dataframe,Apache Spark,Pyspark,Spark Dataframe,我正在尝试使用PySpark填充spark数据帧中缺少的值。但是没有任何正确的方法来做到这一点。我的任务是填充某些行相对于其上一行或下一行的缺失值。具体来说,我会将一行的0.0值更改为前一行的值,而对非零行不做任何操作。我确实在spark中看到了窗口函数,但它只支持一些简单的操作,如max、min、mean,这不适合我的情况。如果我们可以让一个用户定义的函数在给定的窗口上滑动,这将是最佳的。 有人有好主意吗?用于访问前一行数据。如果您处理时间序列数据,另请参见缺失数据插补请共享示例数据、您尝试的
有人有好主意吗?用于访问前一行数据。如果您处理时间序列数据,另请参见
缺失数据插补请共享示例数据、您尝试的代码和预期输出。您如何定义“前一行”?任何排序?@wayag如果答案对您有效,请接受答案:)