Node.js 如何转换一个值数组,使每个值更接近平均值,但在PySpark中具有类似形状的分布(即减少stdev)
我希望我已经用正确的术语描述了我需要做的工作。本质上,我需要“压缩”一系列值,以便所有值都更接近平均值,但它们的值应该相对于它们与平均值的距离减小(或增大) 数据帧如下所示:Node.js 如何转换一个值数组,使每个值更接近平均值,但在PySpark中具有类似形状的分布(即减少stdev),node.js,apache-spark,machine-learning,pyspark,statistics,Node.js,Apache Spark,Machine Learning,Pyspark,Statistics,我希望我已经用正确的术语描述了我需要做的工作。本质上,我需要“压缩”一系列值,以便所有值都更接近平均值,但它们的值应该相对于它们与平均值的距离减小(或增大) 数据帧如下所示: >>> df[['population', 'postalCode']].show(10) +----------+----------+ |population|postalCode| +----------+----------+ | 1464| 96028| | 465
>>> df[['population', 'postalCode']].show(10)
+----------+----------+
|population|postalCode|
+----------+----------+
| 1464| 96028|
| 465| 96015|
| 366| 96016|
| 5490| 96101|
| 183| 96068|
| 569| 96009|
| 366| 96054|
| 90| 96119|
| 557| 96006|
| 233| 96116|
+----------+----------+
only showing top 10 rows
>>> df.describe().show()
+-------+------------------+------------------+
|summary| population| postalCode|
+-------+------------------+------------------+
| count| 1082| 1082|
| mean|23348.511090573014| 93458.60813308688|
| stddev|21825.045923603615|1883.6307236060127|
+-------+------------------+------------------+
总体平均值对我来说是正确的,但我需要它周围的方差更小
希望这是有意义的,非常感谢在pyspark或node.js中执行此任务的任何帮助。总体思路是:
x
中:
x.scaled = new.mean + (x - mean(x)) * new.SD/sd(x)
或者,对于SD=1000且平均值无变化的特定情况:
x.scaled = mean(x) + (x - mean(x)) * 1000/sd(x)
令人惊叹的!谢谢尝试了这一点,它奏效了,但有了正确的术语,我就找到了一个更好的方向:带有numpy的pyspark有一个MinMaxScale函数。。。!