Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 填充Spark数据框中缺少的值_Apache Spark_Pyspark_Spark Dataframe - Fatal编程技术网

Apache spark 填充Spark数据框中缺少的值

Apache spark 填充Spark数据框中缺少的值,apache-spark,pyspark,spark-dataframe,Apache Spark,Pyspark,Spark Dataframe,我正在尝试使用PySpark填充spark数据帧中缺少的值。但是没有任何正确的方法来做到这一点。我的任务是填充某些行相对于其上一行或下一行的缺失值。具体来说,我会将一行的0.0值更改为前一行的值,而对非零行不做任何操作。我确实在spark中看到了窗口函数,但它只支持一些简单的操作,如max、min、mean,这不适合我的情况。如果我们可以让一个用户定义的函数在给定的窗口上滑动,这将是最佳的。 有人有好主意吗?用于访问前一行数据。如果您处理时间序列数据,另请参见缺失数据插补请共享示例数据、您尝试的

我正在尝试使用PySpark填充spark数据帧中缺少的值。但是没有任何正确的方法来做到这一点。我的任务是填充某些行相对于其上一行或下一行的缺失值。具体来说,我会将一行的0.0值更改为前一行的值,而对非零行不做任何操作。我确实在spark中看到了窗口函数,但它只支持一些简单的操作,如max、min、mean,这不适合我的情况。如果我们可以让一个用户定义的函数在给定的窗口上滑动,这将是最佳的。
有人有好主意吗?

用于访问前一行数据。如果您处理时间序列数据,另请参见
缺失数据插补

请共享示例数据、您尝试的代码和预期输出。您如何定义“前一行”?任何排序?@wayag如果答案对您有效,请接受答案:)