在pyspark中聚合Kolmogrov-Smirnov检验_Pyspark_Apache Spark Mllib_Kolmogorov Smirnov

在pyspark中聚合Kolmogrov-Smirnov检验

pyspark

在pyspark中聚合Kolmogrov-Smirnov检验,pyspark,apache-spark-mllib,kolmogorov-smirnov,Pyspark,Apache Spark Mllib,Kolmogorov Smirnov,是否有方法使用groupBy子句或某种聚合方法从pyspark中的spark.mllib库应用KS测试？例如，我有一个数据帧df，其中列ID和RESULT如下： +-------+------+ | ID|RESULT| +-------+------+ |3648296| 2.73| |3648296| 9.64| |3648189| 0.03| |3648189| 0.03| |3648296| 2.51| |3648189| 0.01| |3648296| 1.75

是否有方法使用groupBy子句或某种聚合方法从pyspark中的

spark.mllib

库应用KS测试？例如，我有一个数据帧

df

，其中列

ID

和

RESULT

如下：

+-------+------+
|     ID|RESULT|
+-------+------+
|3648296|  2.73|
|3648296|  9.64|
|3648189|  0.03|
|3648189|  0.03|
|3648296|  2.51|
|3648189|  0.01|
|3648296|  1.75|
|3648296| 30.23|
|3648189|  0.02|
|3648189|  0.02|
|3648189|  0.02|
|3648296|  3.28|
|3648296| 32.55|
|3648296|  2.32|
|3648296| 34.58|
|3648296| 29.22|
|3648189|  0.02|
|3648296|  1.36|
|3648296|  1.64|
|3648296|  1.17|
+-------+------+

有2个

ID

和

，它们对应的

结果

值的顺序为几十万。是否可以应用如下groupBy函数：

from pyspark.mllib.stat import Statistics

normtest=df.groupBy('ID').Statistics.kolmogorovSmirnovTest(df.RESULT, "norm", 0, 1)

这样我就得到了一个输出数据帧，如：

+-------+---------+----------+
|     ID|p-value  |statistic |
+-------+---------+----------+
|3648296|some val | some val |
|3648189|some val | some val |
+-------+---------+----------+

这可能吗