Apache spark 在Apache Spark中查找异常值并替换为平均值

Apache spark 在Apache Spark中查找异常值并替换为平均值,apache-spark,dataframe,apache-spark-sql,Apache Spark,Dataframe,Apache Spark Sql,我目前正在进行一项作业,我需要找到异常值,并将其替换为列中前2个和后2个值的平均值 我将以下两列作为数据框。 样本数据如下所示。 请让我知道如何使用数据帧实现这一点。任何建议都会有很大帮助。谢谢。我想出了解决上述问题的办法。 使用HiveContext窗口函数,我们可以识别异常检测前后的行并替换它们。下面是示例代码。 val w=Window.partitionBy(“CustomerID”).orderBy(“EventDate”) val before=w。行之间(-2,-1) val a

我目前正在进行一项作业,我需要找到异常值,并将其替换为列中前2个和后2个值的平均值 我将以下两列作为数据框。
样本数据如下所示。


请让我知道如何使用数据帧实现这一点。任何建议都会有很大帮助。谢谢。

我想出了解决上述问题的办法。
使用HiveContext窗口函数,我们可以识别异常检测前后的行并替换它们。下面是示例代码。
val w=Window.partitionBy(“CustomerID”).orderBy(“EventDate”)
val before=w。行之间(-2,-1)
val after=w.rowsBetween(1,2)

是否使用某些分组执行?如何确定订单?您使用哪种语言?是的,对CustomerID进行分组。我在用ScalaWhat关于订购?您想使用数据集均值和标准差还是每个客户?我没有使用orderby,而是希望每个客户使用它。它没有回答我的问题。如果没有明确的顺序,如何定义前面/后面的值?有时间戳字段吗?