Apache spark Apache Spark org.Apache.Spark.sql.DataFrameNaFunctions用法的任何示例。。drop（）不'；好像不行？_Apache Spark_Apache Spark Sql

Apache spark Apache Spark org.Apache.Spark.sql.DataFrameNaFunctions用法的任何示例。。drop（）不'；好像不行？

apache-spark

Apache spark Apache Spark org.Apache.Spark.sql.DataFrameNaFunctions用法的任何示例。。drop（）不'；好像不行？,apache-spark,apache-spark-sql,Apache Spark,Apache Spark Sql,我正在尝试使用NA值筛选数据集。已找到org.apache.spark.sql.DataFrameNaFunctions 但是它的drop（）或drop（“any”）似乎不能正常工作..有人尝试过..或者请分享java的用法..谢谢 import org.apache.spark.sql.DataFrameNaFunctions; Dataset<Row> inputDS=spark.read().option("header","true").

我正在尝试使用NA值筛选数据集。已找到org.apache.spark.sql.DataFrameNaFunctions 但是它的drop（）或drop（“any”）似乎不能正常工作..有人尝试过..或者请分享java的用法..谢谢

    import org.apache.spark.sql.DataFrameNaFunctions;
    Dataset<Row> inputDS=spark.read().option("header","true").
                                 csv("inputfile.csv");
    inputDS.show();

    //Updated dataset...remove null or NAN 
    DataFrameNaFunctions inputDatasetsansNullorNAN=new DataFrameNaFunctions(inputDS);
    Dataset<Row> inputDSnulldropped=inputDatasetsansNullorNAN.drop();
    inputDSnulldropped.show();

爱丽丝，牛奶 2.鲍勃，空 3.不适用，
4.测试，a 5.不，不 6.无效，不适用 7.鲍勃，安娜 8. 9.

输出名称项目 1.爱丽丝牛奶 2.鲍伯零 3.测试a 4.NA-NA 5.1不适用

6.Bob NA

DataFrameNaFunction是从dataframe的NA方法创建的，因此您应该执行以下操作：

val withoutNulls = inputDs.na.drop()

另外，请注意，csv中的null是通过没有值来实现的（例如，3，、4表示3和4之间的列为null）。如果您使用类似“null”字符串的内容，那么na函数将无法工作。相反，您可以执行以下操作：

val withoutNulls = inputDs.filter(!($"columnName" === "null"))

非常感谢。从na获取DataframeNAFunctions并使用drop有效。我尝试了另一个代码片段，比如NA或null。但是没有使用java获得它。。。inputDS.filter（！（$item==“null”））对不起，==是scala速记。尝试inputDs.filter（col（“columnName”）.notEqual（“null”））

val withoutNulls = inputDs.filter(!($"columnName" === "null"))