Sas 大z值

Sas 大z值,sas,cluster-computing,cluster-analysis,k-means,Sas,Cluster Computing,Cluster Analysis,K Means,我们正在研究大型电信数据集。当我们标准化数据时,我们得到了很大的z分数,它从-0.xxx到300或400不等! 例如,这些属性的最小值为0,最大值约为4000000 是的,有些变量有异常值。我们可以在不处理异常值的情况下获得很好的聚类结果吗 proc fastclus的8个聚类结果导致分组聚类(第七个聚类有1600000个观测值),还有一个聚类有1个观测值 我们有什么问题 您的变量可能非常倾斜 在这些变量上使用z标准化是值得怀疑的。您可能也应该研究box-cox变换。您可以添加一个或多个直方图吗

我们正在研究大型电信数据集。当我们标准化数据时,我们得到了很大的z分数,它从-0.xxx到300或400不等! 例如,这些属性的最小值为0,最大值约为4000000 是的,有些变量有异常值。我们可以在不处理异常值的情况下获得很好的聚类结果吗

proc fastclus的8个聚类结果导致分组聚类(第七个聚类有1600000个观测值),还有一个聚类有1个观测值

我们有什么问题


您的变量可能非常倾斜


在这些变量上使用z标准化是值得怀疑的。您可能也应该研究box-cox变换。

您可以添加一个或多个直方图吗?你添加的链接需要订阅。(顺便说一句,你可能会在交叉验证中得到更多关注)@JasonV看看这个,谢谢,但是日志转换可以处理吗?看看这个,看看我的分布变量(所有其他变量都是这样的)日志转换可能不够好,也可能不够好。值得一试。好的,谢谢。在使用log的情况下,是强制转换所有连续变量还是仅转换长尾变量?不要盲目地应用转换。这就是为什么你应该试试box cox。它可以帮助您评估何时使用这种转换,何时不使用。