如何使用JavaSpark用最后一个好的观察值填充NaN值?

如何使用JavaSpark用最后一个好的观察值填充NaN值?,java,apache-spark,data-science,Java,Apache Spark,Data Science,我试图用最后一个好的观察结果来填充NaN值 我没有使用DataFrame,只是使用sparkcontext读取dat文件 在我的示例中,所有NaN值都应为104。您可以使用以下对象从数据集中筛选(或替换)NaN值: 例如: Dataset<Row> yourDataSet = sparkSession.createDataFrame(yourJavaRDDCollection, yourSchema); Dataset<Row> dfNaNFilter = new Da

我试图用最后一个好的观察结果来填充NaN值

我没有使用DataFrame,只是使用sparkcontext读取dat文件

在我的示例中,所有NaN值都应为104。

您可以使用以下对象从数据集中筛选(或替换)NaN值:

例如:

Dataset<Row> yourDataSet = sparkSession.createDataFrame(yourJavaRDDCollection, yourSchema);
Dataset<Row> dfNaNFilter = new DataFrameNaFunctions(yourDataSet);

// If you want to remove all of them:
Dataset<Row> nonNaNValues = dfNaNFilter.drop();

// If you want to replace them with a numeric value (e.g. 104):
Dataset<Row> replacedNaNValues = dfNaNFilter.fill(104);
Dataset yourDataSet=sparkSession.createDataFrame(yourJavaRDDCollection,yourSchema);
Dataset dfNaNFilter=新的DataFrameNaFunctions(yourDataSet);
//如果要删除所有这些选项,请执行以下操作:
数据集nonNaNValues=dfNaNFilter.drop();
//如果要将其替换为数值(例如104):
数据集replacedNaNValues=dfNaNFilter.fill(104);