Apache spark Apache Spark org.Apache.Spark.sql.DataFrameNaFunctions用法的任何示例。。drop()不';好像不行?
我正在尝试使用NA值筛选数据集。已找到org.apache.spark.sql.DataFrameNaFunctions 但是它的drop()或drop(“any”)似乎不能正常工作..有人尝试过..或者请分享java的用法..谢谢Apache spark Apache Spark org.Apache.Spark.sql.DataFrameNaFunctions用法的任何示例。。drop()不';好像不行?,apache-spark,apache-spark-sql,Apache Spark,Apache Spark Sql,我正在尝试使用NA值筛选数据集。已找到org.apache.spark.sql.DataFrameNaFunctions 但是它的drop()或drop(“any”)似乎不能正常工作..有人尝试过..或者请分享java的用法..谢谢 import org.apache.spark.sql.DataFrameNaFunctions; Dataset<Row> inputDS=spark.read().option("header","true").
import org.apache.spark.sql.DataFrameNaFunctions;
Dataset<Row> inputDS=spark.read().option("header","true").
csv("inputfile.csv");
inputDS.show();
//Updated dataset...remove null or NAN
DataFrameNaFunctions inputDatasetsansNullorNAN=new DataFrameNaFunctions(inputDS);
Dataset<Row> inputDSnulldropped=inputDatasetsansNullorNAN.drop();
inputDSnulldropped.show();
爱丽丝,牛奶
2.鲍勃,空
3.不适用,4.测试,a 5.不,不 6.无效,不适用 7.鲍勃,安娜 8. 9. 输出 名称项目 1.爱丽丝牛奶 2.鲍伯零 3.测试a 4.NA-NA 5.1不适用
6.Bob NADataFrameNaFunction是从dataframe的NA方法创建的,因此您应该执行以下操作:
val withoutNulls = inputDs.na.drop()
另外,请注意,csv中的null是通过没有值来实现的(例如,3,、4表示3和4之间的列为null)。如果您使用类似“null”字符串的内容,那么na函数将无法工作。相反,您可以执行以下操作:
val withoutNulls = inputDs.filter(!($"columnName" === "null"))
非常感谢。从na获取DataframeNAFunctions并使用drop有效。我尝试了另一个代码片段,比如NA或null。但是没有使用java获得它。。。inputDS.filter(!($item==“null”))对不起,==是scala速记。尝试inputDs.filter(col(“columnName”).notEqual(“null”))
val withoutNulls = inputDs.filter(!($"columnName" === "null"))