Scala 使用聚合函数清除缺少的值_Scala_Apache Spark_Dataframe

Scala 使用聚合函数清除缺少的值

scala apache-spark dataframe

Scala 使用聚合函数清除缺少的值,scala,apache-spark,dataframe,Scala,Apache Spark,Dataframe,我想通过替换它们来清除丢失的值。这个源代码以前是有效的，我不知道为什么，现在不行了。任何帮助都将不胜感激。这是我使用的数据集 RowNumber,Poids,Age,Taille,0MI,Hmean,CoocParam,LdpParam,Test2,Classe 0,,72,160,5,,2.9421,,3,4 1,54,70,,5,0.6301,2.7273,,3, 2,,51,164,5,,2.9834,,3,4 3,,74,170,5,0.6966,2.9654,2.3699,3,4 4

我想通过替换它们来清除丢失的值。这个源代码以前是有效的，我不知道为什么，现在不行了。任何帮助都将不胜感激。这是我使用的数据集

RowNumber,Poids,Age,Taille,0MI,Hmean,CoocParam,LdpParam,Test2,Classe
0,,72,160,5,,2.9421,,3,4
1,54,70,,5,0.6301,2.7273,,3,
2,,51,164,5,,2.9834,,3,4
3,,74,170,5,0.6966,2.9654,2.3699,3,4
4,108,62,,5,0.6087,2.7093,2.1619,3,4

这就是我所做的

 val spark = SparkSession.builder.master("local").appName("my-spark-app").getOrCreate()

    val df = spark.read.option("header", true).option("inferSchema", true).format("com.databricks.spark.csv").load("C:/Users/mhattabi/Desktop/data_with_missing_values3.csv")
    df.show(false)
    var newDF = df
    df.dtypes.foreach { x =>
      val colName = x._1
      newDF = newDF.na.fill(df.agg(max(colName)).first()(0).toString, Seq(colName))
    }
    newDF.show(false)

结果是，什么也没发生

initial_data

    +---------+-----+---+------+---+------+---------+--------+-----+------+
    |RowNumber|Poids|Age|Taille|0MI|Hmean |CoocParam|LdpParam|Test2|Classe|
    +---------+-----+---+------+---+------+---------+--------+-----+------+
    |0        |null |72 |160   |5  |null  |2.9421   |null    |3    |4     |
    |1        |54   |70 |null  |5  |0.6301|2.7273   |null    |3    |null  |
    |2        |null |51 |164   |5  |null  |2.9834   |null    |3    |4     |
    |3        |null |74 |170   |5  |0.6966|2.9654   |2.3699  |3    |4     |
    |4        |108  |62 |null  |5  |0.6087|2.7093   |2.1619  |3    |4     |
    +---------+-----+---+------+---+------+---------+--------+-----+------+

    new_data
    +---------+-----+---+------+---+------+---------+--------+-----+------+
    |RowNumber|Poids|Age|Taille|0MI|Hmean |CoocParam|LdpParam|Test2|Classe|
    +---------+-----+---+------+---+------+---------+--------+-----+------+
    |0        |null |72 |160   |5  |null  |2.9421   |null    |3    |4     |
    |1        |54   |70 |null  |5  |0.6301|2.7273   |null    |3    |null  |
    |2        |null |51 |164   |5  |null  |2.9834   |null    |3    |4     |
    |3        |null |74 |170   |5  |0.6966|2.9654   |2.3699  |3    |4     |
    |4        |108  |62 |null  |5  |0.6087|2.7093   |2.1619  |3    |4     |
    +---------+-----+---+------+---+------+---------+--------+-----+------+

我应该做什么这应该做：

var imputeDF = df
df.dtypes.foreach { x => 
      val colName = x._1
      newDF = newDF.na.fill(df.agg(max(colName)).first()(0).toString , Seq(colName)) }

请注意，在scala中使用可变数据类型不是一个好的做法

根据您的数据，您可以使用SQL联接或其他方法将空值替换为更合适的值。

您可以使用

with column

api，并使用

when

函数检查

列中的空值
df.dtypes.foreach { x =>
      val colName = x._1
      val fill = df.agg(max(col(s"`$colName`"))).first()(0).toString
      newDF = newDF.withColumn(colName, when(col(s"`$colName`").isNull , fill).otherwise(col(s"`$colName`")) )
    }
    newDF.show(false)

我希望这能解决您的问题
如果您试图用平均值替换空值
值，则计算平均值
和填充值

import org.apache.spark.sql.functions.mean


val data = spark.read.option("header", true)
      .option("inferSchema", true).format("com.databricks.spark.csv")
      .load("data.csv")

//Calculate the mean for each column and create a map with its column name 
//and use na.fill() method to replace null with that mean

data.na.fill(data.columns.zip(
      data.select(data.columns.map(mean(_)): _*).first.toSeq
    ).toMap)

我已经在本地测试了代码，效果很好
输出：
+---------+-----+---+------+---+------------------+---------+------------------+-----+------+
|RowNumber|Poids|Age|Taille|0MI|             Hmean|CoocParam|          LdpParam|Test2|Classe|
+---------+-----+---+------+---+------------------+---------+------------------+-----+------+
|        0|   81| 72|   160|  5|0.6451333333333333|   2.9421|2.2659000000000002|    3|     4|
|        1|   54| 70|   164|  5|            0.6301|   2.7273|2.2659000000000002|    3|     4|
|        2|   81| 51|   164|  5|0.6451333333333333|   2.9834|2.2659000000000002|    3|     4|
|        3|   81| 74|   170|  5|            0.6966|   2.9654|            2.3699|    3|     4|
|        4|  108| 62|   164|  5|            0.6087|   2.7093|            2.1619|    3|     4|
+---------+-----+---+------+---+------------------+---------+------------------+-----+------+

希望这有帮助
 请检查更新，没有发生任何事情，谢谢advance@MaherHTB包含空值的列是Int
还是Double
？当列的名称包含“.”时，我遇到了问题。所以我需要使用s“${colName}
”，我如何在您的解决方案上实现它，我只是一个新的感谢汉克斯兄弟，但当我得到“.”在“名称”列中，我将。捕获到一个异常，我需要使用反斜杠，请提供任何帮助。很高兴听到它有效，我认为这是一个有效的解决方案。您想用最大值或平均值替换null吗。您已经询问了平均值，并且您的代码示例使用了max？