如何使用JavaSpark用最后一个好的观察值填充NaN值？_Java_Apache Spark_Data Science

如何使用JavaSpark用最后一个好的观察值填充NaN值？

java apache-spark

如何使用JavaSpark用最后一个好的观察值填充NaN值？,java,apache-spark,data-science,Java,Apache Spark,Data Science,我试图用最后一个好的观察结果来填充NaN值我没有使用DataFrame，只是使用sparkcontext读取dat文件在我的示例中，所有NaN值都应为104。您可以使用以下对象从数据集中筛选（或替换）NaN值：例如： Dataset<Row> yourDataSet = sparkSession.createDataFrame(yourJavaRDDCollection, yourSchema); Dataset<Row> dfNaNFilter = new Da

我试图用最后一个好的观察结果来填充NaN值

我没有使用DataFrame，只是使用sparkcontext读取dat文件

在我的示例中，所有NaN值都应为104。

您可以使用以下对象从数据集中筛选（或替换）NaN值：

例如：

Dataset<Row> yourDataSet = sparkSession.createDataFrame(yourJavaRDDCollection, yourSchema);
Dataset<Row> dfNaNFilter = new DataFrameNaFunctions(yourDataSet);

// If you want to remove all of them:
Dataset<Row> nonNaNValues = dfNaNFilter.drop();

// If you want to replace them with a numeric value (e.g. 104):
Dataset<Row> replacedNaNValues = dfNaNFilter.fill(104);

Dataset yourDataSet=sparkSession.createDataFrame（yourJavaRDDCollection，yourSchema）；
Dataset dfNaNFilter=新的DataFrameNaFunctions（yourDataSet）；
//如果要删除所有这些选项，请执行以下操作：
数据集nonNaNValues=dfNaNFilter.drop（）；
//如果要将其替换为数值（例如104）：
数据集replacedNaNValues=dfNaNFilter.fill（104）；